Mejorando la exactitud balanceada para especies de plantas minoritarias con datos desbalanceados

A pesar del ampliamente conocido éxito del aprendizaje profundo en tareas de clasificación, estos modelos se miden comúnmente con métricas que no tienen en cuenta el desbalance de datos, especialmente en términos de predicciones por clase, ignorando las clases minoritarias. Esto puede ser un problem...

Descripción completa

Detalles Bibliográficos
Autores principales: Gonzalez-Villanueva, Ruben, Carranza-Rojas, Jose
Formato: Online
Idioma:eng
Publicado: Editorial Tecnológica de Costa Rica (entidad editora) 2024
Acceso en línea:https://revistas.tec.ac.cr/index.php/tec_marcha/article/view/7293
Descripción
Sumario:A pesar del ampliamente conocido éxito del aprendizaje profundo en tareas de clasificación, estos modelos se miden comúnmente con métricas que no tienen en cuenta el desbalance de datos, especialmente en términos de predicciones por clase, ignorando las clases minoritarias. Esto puede ser un problema, ya que las clases minoritarias suelen ser las más difíciles de predecir y en términos de recolección de datos. En el dominio de las plantas, por ejemplo, las especies con un menor número de muestras son a menudo las más difíciles de recolectar y predecir en el campo. A medida que se siguen identificando más y más especies de plantas, más de ellas se vuelven minoritarias, lo que dificulta cada vez más la clasificación precisa utilizando métodos tradicionales de aprendizaje automático. Para abordar este problema, se explora la combinación de enfoques de los datos y tradicionales de aprendizaje automático con técnicas de aprendizaje profundo, como la auto-supervisión en una etapa de preprocesamiento. Al utilizar el entrenamiento auto supervisado junto con diferentes algoritmos de muestreo y pesos de clase, logramos mejorar la métrica de exactitud balanceada para las especies de plantas minoritarias entre el 7.9% y el 13% sin afectar la datos general. Esto demuestra que el uso de técnicas de aprendizaje profundo en combinación con métodos tradicionales de aprendizaje automático puede ayudar a mejorar la precisión de las predicciones para clases minoritarias, incluso en dominios donde los datos son limitados.