Ética
Investigadores buscan a neurocientíficos para superar el sesgo de los conjuntos de datos

Un equipo de investigadores en MIT, Harvard University y Fujitsu, Ltd. buscó cómo un modelo de aprendizaje automático podría superar el sesgo de los conjuntos de datos. Confían en un enfoque de neurociencia para estudiar cómo los datos de entrenamiento afectan si una red neural artificial puede aprender a reconocer objetos que nunca ha visto.
La investigación se publicó en Nature Machine Intelligence.
Diversidad en los datos de entrenamiento
Los resultados del estudio demostraron que la diversidad en los datos de entrenamiento influye en si una red neural puede superar el sesgo. Sin embargo, la diversidad de los datos también puede tener un impacto negativo en el rendimiento de la red. Los investigadores también mostraron que la forma en que se entrena una red neural también puede impactar si puede superar un conjunto de datos sesgado.
Xavier Boix es un científico de investigación en el Departamento de Ciencias del Cerebro y la Cognición (BCS) y el Centro para Cerebros, Mentes y Máquinas (CBMM). También es autor senior del artículo.
“Una red neural puede superar el sesgo de los conjuntos de datos, lo que es alentador. Pero la principal conclusión aquí es que debemos tener en cuenta la diversidad de los datos. Debemos dejar de pensar que si solo recopilas una gran cantidad de datos crudos, eso te llevará a algún lugar. Debemos ser muy cuidadosos al diseñar los conjuntos de datos desde el principio”, dice Boix.
El equipo adoptó la mentalidad de un neurocientífico para desarrollar el nuevo enfoque. Según Boix, es común utilizar conjuntos de datos controlados en experimentos, por lo que el equipo construyó conjuntos de datos que contenían imágenes de diferentes objetos en varias posiciones. Luego controlaron las combinaciones para que algunos conjuntos de datos fueran más diversos que otros. Un conjunto de datos con más imágenes que muestran objetos desde una sola perspectiva es menos diverso, mientras que uno con más imágenes que muestran objetos desde múltiples perspectivas es más diverso.
Los investigadores tomaron estos conjuntos de datos y los utilizaron para entrenar una red neural para la clasificación de imágenes. Luego estudiaron cuán buena era para identificar objetos desde perspectivas que la red no había visto durante el entrenamiento.
Encontraron que los conjuntos de datos más diversos permiten que la red generalice mejor las nuevas imágenes o perspectivas, y esto es crucial para superar el sesgo.
“Pero no es como si más diversidad de datos siempre fuera mejor; hay una tensión aquí. Cuando la red neural se vuelve mejor para reconocer nuevas cosas que no ha visto, entonces se volverá más difícil para ella reconocer cosas que ya ha visto”, dice Boix.
Métodos para entrenar redes neuronales
El equipo también encontró que un modelo entrenado por separado para cada tarea es capaz de superar el sesgo en comparación con un modelo entrenado para ambas tareas juntas.
“Los resultados fueron realmente impactantes. De hecho, la primera vez que hicimos este experimento, pensamos que era un error. Nos llevó varias semanas darnos cuenta de que era un resultado real porque era tan inesperado”, continúa Boix.
Un análisis más profundo reveló que la especialización de las neuronas está involucrada en este proceso. Cuando la red neural se entrena para reconocer objetos en imágenes, surgen dos tipos de neuronas. Una neurona se especializa en reconocer la categoría del objeto, mientras que la otra se especializa en reconocer la perspectiva.
Las neuronas especializadas se vuelven más prominentes cuando la red se entrena para realizar tareas por separado. Sin embargo, cuando una red se entrena para completar ambas tareas al mismo tiempo, algunas neuronas se diluyen. Esto significa que no se especializan en una tarea y es más probable que se confundan.
“Pero la próxima pregunta ahora es, ¿cómo llegaron estas neuronas allí? Se entrena a la red neural y surgen del proceso de aprendizaje. Nadie le dijo a la red que incluyera este tipo de neuronas en su arquitectura. Eso es lo fascinante”, dice Boix.
Los investigadores buscarán explorar esta pregunta en su trabajo futuro, así como aplicar el nuevo enfoque a tareas más complejas.












