Minería de texto en la Encuesta Nacional de Transparencia 2019
Codificar y analizar preguntas abiertas provenientes de encuestas de opinión suele ser laborioso. La minería de texto ofrece una alternativa para ese tipo de problemática. Se utilizaron los datos de preguntas abiertas provenientes de la Encuesta Nacional de Percepción sobre la Transparencia 2019. Se...
Autores principales: | , |
---|---|
Formato: | Online |
Idioma: | spa |
Publicado: |
Universidad de Costa Rica, Centro de Investigación en Matemática Pura y Aplicada (CIMPA)
2022
|
Acceso en línea: | https://revistas.ucr.ac.cr/index.php/matematica/article/view/46379 |
id |
RMTA46379 |
---|---|
record_format |
ojs |
spelling |
RMTA463792022-09-08T15:06:41Z Text minig in the National Transparency Survey 2019 Minería de texto en la Encuesta Nacional de Transparencia 2019 Centeno-Mora, Oscar Gónzalez-Évora, Felipe opinion surveys open questions text mining supervised machine learning encuesta de opinión preguntas abiertas minería de texto aprendizaje automático supervisado Coding and analyzing open-ended questions from opinion survey is often time consuming. Text mining offers an alternative for this type of problem. Data comes from the 2019 National Survey of Perception on Transparency open-ended questions. Text mining is applied from a descriptive and predictive approach: the latter has a predominant interest in performing the automatic coding of responses or categories using supervised machine learning. Support vector machine algorithms, naïve Bayes classifier, random forests, XGBoost, and closest neighbors are used. The results of the descriptive analysis improve the descriptions, visualizations and relationships in the analysis of the open-ended questions. The predictive analysis reports that the algorithms with the highest selection occurrence for the open-ended questions were the naive Bayes classifier and the random forests, showing accuracies between 48% and 76%. Similar results were obtained compared with the pre-established categories. Satisfactory results are seen in the comprehensive analysis of the 12 survey questions. Codificar y analizar preguntas abiertas provenientes de encuestas de opinión suele ser laborioso. La minería de texto ofrece una alternativa para ese tipo de problemática. Se utilizaron los datos de preguntas abiertas provenientes de la Encuesta Nacional de Percepción sobre la Transparencia 2019. Se aplica la minería de texto desde un enfoque descriptivo como predictivo: este último posee un interés predominante al realizar la codificación automática de respuestas o categorías a partir del aprendizaje automático supervisado. Se emplean algoritmos de máquinas de soporte vectorial, clasificador ingenuo de Bayes, bosques aleatorios, XGBoost y vecinos más cercanos. Los resultados del análisis descriptivo permiten apreciar las descripciones, visualizaciones y relaciones en el análisis de las preguntas abiertas. El análisis predictivo reseña que los algoritmos seleccionados con mayor ocurrencia para las preguntas abiertas fueron el clasificador ingenuo de Bayes y los bosques aleatorios, mostrando precisiones de entre 48% y 76%. Se obtuvieron resultados similares en comparación con las categorías que fueron codificadas manualmente. Se aprecian resultados satisfactorios en el análisis integral de las 12 preguntas de la encuesta. Universidad de Costa Rica, Centro de Investigación en Matemática Pura y Aplicada (CIMPA) 2022-06-30 info:eu-repo/semantics/article info:eu-repo/semantics/publishedVersion Article application/pdf application/postscript application/x-dvi https://revistas.ucr.ac.cr/index.php/matematica/article/view/46379 10.15517/rmta.v29i2.46379 Revista de Matemática: Teoría y Aplicaciones; Vol. 29 No. 2 (2022): Revista de Matemática: Teoría y Aplicaciones; 261-287 Revista de Matemática: Teoría y Aplicaciones; Vol. 29 Núm. 2 (2022): Revista de Matemática: Teoría y Aplicaciones; 261-287 Revista de Matemática; Vol. 29 N.º 2 (2022): Revista de Matemática: Teoría y Aplicaciones; 261-287 2215-3373 1409-2433 spa https://revistas.ucr.ac.cr/index.php/matematica/article/view/46379/51646 https://revistas.ucr.ac.cr/index.php/matematica/article/view/46379/51647 https://revistas.ucr.ac.cr/index.php/matematica/article/view/46379/51648 Derechos de autor 2022 Oscar Centeno-Mora, Felipe Gónzalez-Évora https://creativecommons.org/licenses/by-nc-sa/4.0 |
institution |
Universidad de Costa Rica |
collection |
Revista de Matemática: Teoría y Aplicaciones |
language |
spa |
format |
Online |
author |
Centeno-Mora, Oscar Gónzalez-Évora, Felipe |
spellingShingle |
Centeno-Mora, Oscar Gónzalez-Évora, Felipe Minería de texto en la Encuesta Nacional de Transparencia 2019 |
author_facet |
Centeno-Mora, Oscar Gónzalez-Évora, Felipe |
author_sort |
Centeno-Mora, Oscar |
description |
Codificar y analizar preguntas abiertas provenientes de encuestas de opinión suele ser laborioso. La minería de texto ofrece una alternativa para ese tipo de problemática. Se utilizaron los datos de preguntas abiertas provenientes de la Encuesta Nacional de Percepción sobre la Transparencia 2019. Se aplica la minería de texto desde un enfoque descriptivo como predictivo: este último posee un interés predominante al realizar la codificación automática de respuestas o categorías a partir del aprendizaje automático supervisado. Se emplean algoritmos de máquinas de soporte vectorial, clasificador ingenuo de Bayes, bosques aleatorios, XGBoost y vecinos más cercanos. Los resultados del análisis descriptivo permiten apreciar las descripciones, visualizaciones y relaciones en el análisis de las preguntas abiertas. El análisis predictivo reseña que los algoritmos seleccionados con mayor ocurrencia para las preguntas abiertas fueron el clasificador ingenuo de Bayes y los bosques aleatorios, mostrando precisiones de entre 48% y 76%. Se obtuvieron resultados similares en comparación con las categorías que fueron codificadas manualmente. Se aprecian resultados satisfactorios en el análisis integral de las 12 preguntas de la encuesta. |
title |
Minería de texto en la Encuesta Nacional de Transparencia 2019 |
title_short |
Minería de texto en la Encuesta Nacional de Transparencia 2019 |
title_full |
Minería de texto en la Encuesta Nacional de Transparencia 2019 |
title_fullStr |
Minería de texto en la Encuesta Nacional de Transparencia 2019 |
title_full_unstemmed |
Minería de texto en la Encuesta Nacional de Transparencia 2019 |
title_sort |
minería de texto en la encuesta nacional de transparencia 2019 |
title_alt |
Text minig in the National Transparency Survey 2019 |
publisher |
Universidad de Costa Rica, Centro de Investigación en Matemática Pura y Aplicada (CIMPA) |
publishDate |
2022 |
url |
https://revistas.ucr.ac.cr/index.php/matematica/article/view/46379 |
work_keys_str_mv |
AT centenomoraoscar textminiginthenationaltransparencysurvey2019 AT gonzalezevorafelipe textminiginthenationaltransparencysurvey2019 AT centenomoraoscar mineriadetextoenlaencuestanacionaldetransparencia2019 AT gonzalezevorafelipe mineriadetextoenlaencuestanacionaldetransparencia2019 |
_version_ |
1811744112475373568 |