Minería de texto en la Encuesta Nacional de Transparencia 2019

Codificar y analizar preguntas abiertas provenientes de encuestas de opinión suele ser laborioso. La minería de texto ofrece una alternativa para ese tipo de problemática. Se utilizaron los datos de preguntas abiertas provenientes de la Encuesta Nacional de Percepción sobre la Transparencia 2019. Se...

Descripción completa

Detalles Bibliográficos
Autores principales: Centeno-Mora, Oscar, Gónzalez-Évora, Felipe
Formato: Online
Idioma:spa
Publicado: Universidad de Costa Rica, Centro de Investigación en Matemática Pura y Aplicada (CIMPA) 2022
Acceso en línea:https://revistas.ucr.ac.cr/index.php/matematica/article/view/46379
id RMTA46379
record_format ojs
spelling RMTA463792022-09-08T15:06:41Z Text minig in the National Transparency Survey 2019 Minería de texto en la Encuesta Nacional de Transparencia 2019 Centeno-Mora, Oscar Gónzalez-Évora, Felipe opinion surveys open questions text mining supervised machine learning encuesta de opinión preguntas abiertas minería de texto aprendizaje automático supervisado Coding and analyzing open-ended questions from opinion survey is often time consuming. Text mining offers an alternative for this type of problem. Data comes from the 2019 National Survey of Perception on Transparency open-ended questions. Text mining is applied from a descriptive and predictive approach: the latter has a predominant interest in performing the automatic coding of responses or categories using supervised machine learning. Support vector machine algorithms, naïve Bayes classifier, random forests, XGBoost, and closest neighbors are used. The results of the descriptive analysis improve the descriptions, visualizations and relationships in the analysis of the open-ended questions. The predictive analysis reports that the algorithms with the highest selection occurrence for the open-ended questions were the naive Bayes classifier and the random forests, showing accuracies between 48% and 76%. Similar results were obtained compared with the pre-established categories. Satisfactory results are seen in the comprehensive analysis of the 12 survey questions. Codificar y analizar preguntas abiertas provenientes de encuestas de opinión suele ser laborioso. La minería de texto ofrece una alternativa para ese tipo de problemática. Se utilizaron los datos de preguntas abiertas provenientes de la Encuesta Nacional de Percepción sobre la Transparencia 2019. Se aplica la minería de texto desde un enfoque descriptivo como predictivo: este último posee un interés predominante al realizar la codificación automática de respuestas o categorías a partir del aprendizaje automático supervisado. Se emplean algoritmos de máquinas de soporte vectorial, clasificador ingenuo de Bayes, bosques aleatorios, XGBoost y vecinos más cercanos. Los resultados del análisis descriptivo permiten apreciar las descripciones, visualizaciones y relaciones en el análisis de las preguntas abiertas. El análisis predictivo reseña que los algoritmos seleccionados con mayor ocurrencia para las preguntas abiertas fueron el clasificador ingenuo de Bayes y los bosques aleatorios, mostrando precisiones de entre 48% y 76%. Se obtuvieron resultados similares en comparación con las categorías que fueron codificadas manualmente. Se aprecian resultados satisfactorios en el análisis integral de las 12 preguntas de la encuesta. Universidad de Costa Rica, Centro de Investigación en Matemática Pura y Aplicada (CIMPA) 2022-06-30 info:eu-repo/semantics/article info:eu-repo/semantics/publishedVersion Article application/pdf application/postscript application/x-dvi https://revistas.ucr.ac.cr/index.php/matematica/article/view/46379 10.15517/rmta.v29i2.46379 Revista de Matemática: Teoría y Aplicaciones; Vol. 29 No. 2 (2022): Revista de Matemática: Teoría y Aplicaciones; 261-287 Revista de Matemática: Teoría y Aplicaciones; Vol. 29 Núm. 2 (2022): Revista de Matemática: Teoría y Aplicaciones; 261-287 Revista de Matemática; Vol. 29 N.º 2 (2022): Revista de Matemática: Teoría y Aplicaciones; 261-287 2215-3373 1409-2433 spa https://revistas.ucr.ac.cr/index.php/matematica/article/view/46379/51646 https://revistas.ucr.ac.cr/index.php/matematica/article/view/46379/51647 https://revistas.ucr.ac.cr/index.php/matematica/article/view/46379/51648 Derechos de autor 2022 Oscar Centeno-Mora, Felipe Gónzalez-Évora https://creativecommons.org/licenses/by-nc-sa/4.0
institution Universidad de Costa Rica
collection Revista de Matemática: Teoría y Aplicaciones
language spa
format Online
author Centeno-Mora, Oscar
Gónzalez-Évora, Felipe
spellingShingle Centeno-Mora, Oscar
Gónzalez-Évora, Felipe
Minería de texto en la Encuesta Nacional de Transparencia 2019
author_facet Centeno-Mora, Oscar
Gónzalez-Évora, Felipe
author_sort Centeno-Mora, Oscar
description Codificar y analizar preguntas abiertas provenientes de encuestas de opinión suele ser laborioso. La minería de texto ofrece una alternativa para ese tipo de problemática. Se utilizaron los datos de preguntas abiertas provenientes de la Encuesta Nacional de Percepción sobre la Transparencia 2019. Se aplica la minería de texto desde un enfoque descriptivo como predictivo: este último posee un interés predominante al realizar la codificación automática de respuestas o categorías a partir del aprendizaje automático supervisado. Se emplean algoritmos de máquinas de soporte vectorial, clasificador ingenuo de Bayes, bosques aleatorios, XGBoost y vecinos más cercanos. Los resultados del análisis descriptivo permiten apreciar las descripciones, visualizaciones y relaciones en el análisis de las preguntas abiertas. El análisis predictivo reseña que los algoritmos seleccionados con mayor ocurrencia para las preguntas abiertas fueron el clasificador ingenuo de Bayes y los bosques aleatorios, mostrando precisiones de entre 48% y 76%. Se obtuvieron resultados similares en comparación con las categorías que fueron codificadas manualmente. Se aprecian resultados satisfactorios en el análisis integral de las 12 preguntas de la encuesta.
title Minería de texto en la Encuesta Nacional de Transparencia 2019
title_short Minería de texto en la Encuesta Nacional de Transparencia 2019
title_full Minería de texto en la Encuesta Nacional de Transparencia 2019
title_fullStr Minería de texto en la Encuesta Nacional de Transparencia 2019
title_full_unstemmed Minería de texto en la Encuesta Nacional de Transparencia 2019
title_sort minería de texto en la encuesta nacional de transparencia 2019
title_alt Text minig in the National Transparency Survey 2019
publisher Universidad de Costa Rica, Centro de Investigación en Matemática Pura y Aplicada (CIMPA)
publishDate 2022
url https://revistas.ucr.ac.cr/index.php/matematica/article/view/46379
work_keys_str_mv AT centenomoraoscar textminiginthenationaltransparencysurvey2019
AT gonzalezevorafelipe textminiginthenationaltransparencysurvey2019
AT centenomoraoscar mineriadetextoenlaencuestanacionaldetransparencia2019
AT gonzalezevorafelipe mineriadetextoenlaencuestanacionaldetransparencia2019
_version_ 1811744112475373568