Alineación forzada sin entrenamiento para la anotación automática de corpus orales de las lenguas indígenas de Costa Rica

La alineación forzada provee un ahorro drástico de tiempo al segmentar grabaciones de habla. Esto es parti- cularmente útil para las lenguas indígenas, las cuales carecen de recursos para su estudio desde la lingüística computacional. Este artículo presenta un método para alinear grabaciones...

Full description

Bibliographic Details
Main Authors: Coto-Solano, Rolando, Flores Solórzano, Sofía
Format: Online
Language:spa
Published: Universidad de Costa Rica. Campus Rodrigo Facio. Sitio web: https://www.ucr.ac.cr/ Teléfono: (506) 2511-4000. Correo de soporte: revistas@ucr.ac.cr 2017
Online Access:https://revistas.ucr.ac.cr/index.php/kanina/article/view/30234
id KANINA30234
record_format ojs
spelling KANINA302342022-05-31T02:51:53Z Alineación forzada sin entrenamiento para la anotación automática de corpus orales de las lenguas indígenas de Costa Rica Coto-Solano, Rolando Flores Solórzano, Sofía Bribri cabécar malecu alineamiento forzado fonética La alineación forzada provee un ahorro drástico de tiempo al segmentar grabaciones de habla. Esto es parti- cularmente útil para las lenguas indígenas, las cuales carecen de recursos para su estudio desde la lingüística computacional. Este artículo presenta un método para alinear grabaciones en bribri, cabécar y malecu usando modelos acústicos entrenados para inglés y francés. Se usaron los sistemas FAVE-align e EasyAlign para pro- ducir TextGrids de Praat, y se obtuvieron errores de 2~3 milisegundos para el centro de las palabras en bribri y malecu (8~13% de la duración de las palabras) y de 7 milisegundos para el cabécar (37% de la duración de las palabras). Los fonemas también tuvieron un desempeño adecuado; para el bribri y el malecu el 40% de los fonemas estaban alineados con un error igual o menor a 1 milisegundo, mientras que esta cifra es de 24% para el cabécar. El desempeño más bajo del cabécar puede deberse a que usó una grabación con más ruido ambien- tal. Estos sistemas de alineación forzada pueden ayudar al estudio automatizado de las lenguas de Costa Rica mediante la generación de corpus alineados que puedan usarse para estudios fonéticos y para entrenamiento de modelos acústicos y de reconocimiento del habla.  Universidad de Costa Rica. Campus Rodrigo Facio. Sitio web: https://www.ucr.ac.cr/ Teléfono: (506) 2511-4000. Correo de soporte: revistas@ucr.ac.cr 2017-08-16 info:eu-repo/semantics/article info:eu-repo/semantics/publishedVersion Article Article application/pdf https://revistas.ucr.ac.cr/index.php/kanina/article/view/30234 10.15517/rk.v40i4.30234 Káñina; Vol. 40 No. 4 (2016): Káñina número extraordinario; 175-199 Káñina; Vol. 40 Núm. 4 (2016): Káñina número extraordinario; 175-199 Káñina; Vol. 40 N.º 4 (2016): Káñina número extraordinario; 175-199 2215-2636 0378-0473 spa https://revistas.ucr.ac.cr/index.php/kanina/article/view/30234/30212 Derechos de autor 2017 Káñina
institution Universidad de Costa Rica
collection Káñina
language spa
format Online
author Coto-Solano, Rolando
Flores Solórzano, Sofía
spellingShingle Coto-Solano, Rolando
Flores Solórzano, Sofía
Alineación forzada sin entrenamiento para la anotación automática de corpus orales de las lenguas indígenas de Costa Rica
author_facet Coto-Solano, Rolando
Flores Solórzano, Sofía
author_sort Coto-Solano, Rolando
description La alineación forzada provee un ahorro drástico de tiempo al segmentar grabaciones de habla. Esto es parti- cularmente útil para las lenguas indígenas, las cuales carecen de recursos para su estudio desde la lingüística computacional. Este artículo presenta un método para alinear grabaciones en bribri, cabécar y malecu usando modelos acústicos entrenados para inglés y francés. Se usaron los sistemas FAVE-align e EasyAlign para pro- ducir TextGrids de Praat, y se obtuvieron errores de 2~3 milisegundos para el centro de las palabras en bribri y malecu (8~13% de la duración de las palabras) y de 7 milisegundos para el cabécar (37% de la duración de las palabras). Los fonemas también tuvieron un desempeño adecuado; para el bribri y el malecu el 40% de los fonemas estaban alineados con un error igual o menor a 1 milisegundo, mientras que esta cifra es de 24% para el cabécar. El desempeño más bajo del cabécar puede deberse a que usó una grabación con más ruido ambien- tal. Estos sistemas de alineación forzada pueden ayudar al estudio automatizado de las lenguas de Costa Rica mediante la generación de corpus alineados que puedan usarse para estudios fonéticos y para entrenamiento de modelos acústicos y de reconocimiento del habla. 
title Alineación forzada sin entrenamiento para la anotación automática de corpus orales de las lenguas indígenas de Costa Rica
title_short Alineación forzada sin entrenamiento para la anotación automática de corpus orales de las lenguas indígenas de Costa Rica
title_full Alineación forzada sin entrenamiento para la anotación automática de corpus orales de las lenguas indígenas de Costa Rica
title_fullStr Alineación forzada sin entrenamiento para la anotación automática de corpus orales de las lenguas indígenas de Costa Rica
title_full_unstemmed Alineación forzada sin entrenamiento para la anotación automática de corpus orales de las lenguas indígenas de Costa Rica
title_sort alineación forzada sin entrenamiento para la anotación automática de corpus orales de las lenguas indígenas de costa rica
publisher Universidad de Costa Rica. Campus Rodrigo Facio. Sitio web: https://www.ucr.ac.cr/ Teléfono: (506) 2511-4000. Correo de soporte: revistas@ucr.ac.cr
publishDate 2017
url https://revistas.ucr.ac.cr/index.php/kanina/article/view/30234
work_keys_str_mv AT cotosolanorolando alineacionforzadasinentrenamientoparalaanotacionautomaticadecorpusoralesdelaslenguasindigenasdecostarica
AT floressolorzanosofia alineacionforzadasinentrenamientoparalaanotacionautomaticadecorpusoralesdelaslenguasindigenasdecostarica
_version_ 1810112810407952384