
Un grupo de investigadores provenientes del MIT, Harvard y Fujitsu, Ltd. exploran la posibilidad de que un modelo de aprendizaje automático pueda obviar el sesgo inherente a los conjuntos de datos. Para ello, se orientaron en un método de neurociencia para desentrañar cómo los datos de entrenamiento influyen en la habilidad de la red neuronal artificial para reconocer elementos que no ha visto antes.
El estudio fue publicado en Nature Machine Intelligence. [automatic_youtube_gallery type="search" search="Los científicos buscan la ayuda de neurocientíficos para superar el sesgo en conjuntos de datos" cache="2419200" per_page="1" thumb_excerpt="0" player_description="0"]
El papel crucial de la diversidad en la formación de los datos
El estudio arrojó que la diversidad en los datos de entrenamiento tiene un papel fundamental en la capacidad de la red neuronal para lidiar con el sesgo del conjunto de datos. Sin embargo, la variedad de los datos también puede tener algún impacto negativo en el desempeño de la misma. El equipo de investigadores también pudo constatar que la manera en que entrenas a una red neuronal puede influir en su habilidad para manejar un conjunto de datos sesgado.
Xavier Boix, científico investigador del Departamento de Ciencias Cognitivas y del Cerebro (BCS) como también del Centro de Cerebros, Mentes y Máquinas (CBMM), es el autor principal del estudio.
“Una red neuronal puede lidiar con el sesgo del conjunto de datos, ese es un dato positivo. Sin embargo, lo que este estudio nos enseña es que debemos prestar más atención a la diversificación de los datos. No podemos simplemente acumular ingentes cantidades de datos crudos esperando que esos nos resuelvan todos los problemas. Primero, debemos ser extremadamente meticulosos en relación a cómo formamos los conjuntos de datos”, recalca Boix.
El equipo de investigación abordó el reto con la mentalidad de un neurocientífico. Según Boix, es común emplear conjuntos de datos controlados en experimentos. En consecuencia, crearon conjuntos de datos con imágenes de diversos objetos en variadas posturas. Posteriormente controlaron las combinaciones para hacer unos conjuntos de datos más variados que otros. Un conjunto de datos con más imágenes que retratan objetos desde un solo ángulo es menos diverso, mientras que uno con más imágenes que representan objetos desde diversos puntos de vista es más diverso.
Tomaron estos conjuntos de datos y los usaron para entrenar una red neuronal para la clasificación de imágenes. Después investigaron cuán bueno era para identificar objetos desde puntos de vista que la red no vio durante el entrenamiento.
Comprobaron que los conjuntos de datos mas variados permiten que la red pueda generalizar mejor nuevas imágenes o puntos de vista. Este es un dato fundamental para mitigar el sesgo.
“Aunque una mayor diversidad de datos no siempre es mejor; existe una tensión aquí. Cuando la red neuronal mejora en el reconocimiento de cosas nuevas que no ha visto, le resulta más difícil reconocer cosas que ya ha visto”, dice Boix.
Mecanismos para entrenar las redes neuronales
El equipo también observó que un modelo entrenado a distancia para cada tarea es más capaz de superar el sesgo comparado con un modelo entrenado para ambas tareas de manera conjunta.
“Los resultados fueron realmente impactantes. De verdad pensamos que era un error la primera vez que hicimos el experimento. Pasaron varias semanas antes de que nos diéramos cuenta que era un resultado legítimo y que había sido muy inesperado”, continuó diciendo Boix.
Un análisis más detallado reveló la importancia de la especialización neuronal en este proceso. Cuando la red neuronal está entrenada para reconocer objetos en imágenes, emergen dos tipos de neuronas. Una se especializa en reconocer la categoría del objeto y la otra en reconocer el ángulo de la imagen.
Las neuronas especializadas se vuelven más destacadas cuando la red está entrenada para realizar tareas de manera separada. En contraste, cuando una red está entrenada para abordar ambas tareas al mismo tiempo, algunas neuronas tienden a diluirse. Esto significa que no se especializan en una tarea concreta y por tanto, es más probable que se confundan.
“La siguiente pregunta es: ¿cómo llegaron esas neuronas allí? Entrenas la red neuronal y esto emerge del proceso de aprendizaje. Nadie le dijo a la red que necesitaba incluir este tipo de neuronas en su arquitectura. Esto es lo que realmente fascina”, comenta Boix.
En sus investigaciones futuras, los investigadores buscarán explorar más sobre esta cuestión, así como también aplicar el enfoque en tareas más complejas.
