Alineación forzada sin entrenamiento para la anotación automática de corpus orales de las lenguas indígenas de Costa Rica
La alineación forzada provee un ahorro drástico de tiempo al segmentar grabaciones de habla. Esto es parti- cularmente útil para las lenguas indígenas, las cuales carecen de recursos para su estudio desde la lingüística computacional. Este artículo presenta un método para alinear grabaciones...
Autores principales: | , |
---|---|
Formato: | Online |
Idioma: | spa |
Publicado: |
Universidad de Costa Rica. Campus Rodrigo Facio. Sitio web: https://www.ucr.ac.cr/ Teléfono: (506) 2511-4000. Correo de soporte: revistas@ucr.ac.cr
2017
|
Acceso en línea: | https://revistas.ucr.ac.cr/index.php/kanina/article/view/30234 |
id |
KANINA30234 |
---|---|
record_format |
ojs |
spelling |
KANINA302342022-05-31T02:51:53Z Alineación forzada sin entrenamiento para la anotación automática de corpus orales de las lenguas indígenas de Costa Rica Coto-Solano, Rolando Flores Solórzano, Sofía Bribri cabécar malecu alineamiento forzado fonética La alineación forzada provee un ahorro drástico de tiempo al segmentar grabaciones de habla. Esto es parti- cularmente útil para las lenguas indígenas, las cuales carecen de recursos para su estudio desde la lingüística computacional. Este artículo presenta un método para alinear grabaciones en bribri, cabécar y malecu usando modelos acústicos entrenados para inglés y francés. Se usaron los sistemas FAVE-align e EasyAlign para pro- ducir TextGrids de Praat, y se obtuvieron errores de 2~3 milisegundos para el centro de las palabras en bribri y malecu (8~13% de la duración de las palabras) y de 7 milisegundos para el cabécar (37% de la duración de las palabras). Los fonemas también tuvieron un desempeño adecuado; para el bribri y el malecu el 40% de los fonemas estaban alineados con un error igual o menor a 1 milisegundo, mientras que esta cifra es de 24% para el cabécar. El desempeño más bajo del cabécar puede deberse a que usó una grabación con más ruido ambien- tal. Estos sistemas de alineación forzada pueden ayudar al estudio automatizado de las lenguas de Costa Rica mediante la generación de corpus alineados que puedan usarse para estudios fonéticos y para entrenamiento de modelos acústicos y de reconocimiento del habla. Universidad de Costa Rica. Campus Rodrigo Facio. Sitio web: https://www.ucr.ac.cr/ Teléfono: (506) 2511-4000. Correo de soporte: revistas@ucr.ac.cr 2017-08-16 info:eu-repo/semantics/article info:eu-repo/semantics/publishedVersion Article Article application/pdf https://revistas.ucr.ac.cr/index.php/kanina/article/view/30234 10.15517/rk.v40i4.30234 Káñina; Vol. 40 No. 4 (2016): Káñina número extraordinario; 175-199 Káñina; Vol. 40 Núm. 4 (2016): Káñina número extraordinario; 175-199 Káñina; Vol. 40 N.º 4 (2016): Káñina número extraordinario; 175-199 2215-2636 0378-0473 spa https://revistas.ucr.ac.cr/index.php/kanina/article/view/30234/30212 Derechos de autor 2017 Káñina |
institution |
Universidad de Costa Rica |
collection |
Káñina |
language |
spa |
format |
Online |
author |
Coto-Solano, Rolando Flores Solórzano, Sofía |
spellingShingle |
Coto-Solano, Rolando Flores Solórzano, Sofía Alineación forzada sin entrenamiento para la anotación automática de corpus orales de las lenguas indígenas de Costa Rica |
author_facet |
Coto-Solano, Rolando Flores Solórzano, Sofía |
author_sort |
Coto-Solano, Rolando |
description |
La alineación forzada provee un ahorro drástico de tiempo al segmentar grabaciones de habla. Esto es parti- cularmente útil para las lenguas indígenas, las cuales carecen de recursos para su estudio desde la lingüística computacional. Este artículo presenta un método para alinear grabaciones en bribri, cabécar y malecu usando modelos acústicos entrenados para inglés y francés. Se usaron los sistemas FAVE-align e EasyAlign para pro- ducir TextGrids de Praat, y se obtuvieron errores de 2~3 milisegundos para el centro de las palabras en bribri y malecu (8~13% de la duración de las palabras) y de 7 milisegundos para el cabécar (37% de la duración de las palabras). Los fonemas también tuvieron un desempeño adecuado; para el bribri y el malecu el 40% de los fonemas estaban alineados con un error igual o menor a 1 milisegundo, mientras que esta cifra es de 24% para el cabécar. El desempeño más bajo del cabécar puede deberse a que usó una grabación con más ruido ambien- tal. Estos sistemas de alineación forzada pueden ayudar al estudio automatizado de las lenguas de Costa Rica mediante la generación de corpus alineados que puedan usarse para estudios fonéticos y para entrenamiento de modelos acústicos y de reconocimiento del habla. |
title |
Alineación forzada sin entrenamiento para la anotación automática de corpus orales de las lenguas indígenas de Costa Rica |
title_short |
Alineación forzada sin entrenamiento para la anotación automática de corpus orales de las lenguas indígenas de Costa Rica |
title_full |
Alineación forzada sin entrenamiento para la anotación automática de corpus orales de las lenguas indígenas de Costa Rica |
title_fullStr |
Alineación forzada sin entrenamiento para la anotación automática de corpus orales de las lenguas indígenas de Costa Rica |
title_full_unstemmed |
Alineación forzada sin entrenamiento para la anotación automática de corpus orales de las lenguas indígenas de Costa Rica |
title_sort |
alineación forzada sin entrenamiento para la anotación automática de corpus orales de las lenguas indígenas de costa rica |
publisher |
Universidad de Costa Rica. Campus Rodrigo Facio. Sitio web: https://www.ucr.ac.cr/ Teléfono: (506) 2511-4000. Correo de soporte: revistas@ucr.ac.cr |
publishDate |
2017 |
url |
https://revistas.ucr.ac.cr/index.php/kanina/article/view/30234 |
work_keys_str_mv |
AT cotosolanorolando alineacionforzadasinentrenamientoparalaanotacionautomaticadecorpusoralesdelaslenguasindigenasdecostarica AT floressolorzanosofia alineacionforzadasinentrenamientoparalaanotacionautomaticadecorpusoralesdelaslenguasindigenasdecostarica |
_version_ |
1810112810407952384 |