talón DeepMind descubre una técnica de entrenamiento de IA que también podría funcionar en nuestro cerebro - Unite.AI
Contáctanos

Inteligencia artificial

DeepMind descubre una técnica de entrenamiento de IA que también podría funcionar en nuestro cerebro

mm
Actualizado on

DeepMind recientemente publicado un documento detallando cómo un tipo de aprendizaje por refuerzo recientemente desarrollado podría explicar potencialmente cómo funcionan las vías de recompensa dentro del cerebro humano. Según lo informado por NewScientist, el método de entrenamiento de aprendizaje automático se llama aprendizaje por refuerzo distributivo y los mecanismos detrás de él parecen explicar de manera plausible cómo las neuronas dentro del cerebro liberan dopamina.

La neurociencia y la informática tienen una larga historia juntas. Ya en 1951, Marvin Minksy utilizó un sistema de premios y castigos para crear un programa informático capaz de resolver un laberinto. Minksy se inspiró en el trabajo de Ivan Pavlov, un fisiólogo que demostró que los perros podían aprender a través de una serie de recompensas y castigos. El nuevo artículo de Deepmind se suma a la historia entrelazada de la neurociencia y la informática mediante la aplicación de un tipo de aprendizaje reforzado para obtener información sobre cómo podrían funcionar las neuronas de dopamina.

Cada vez que una persona o un animal está a punto de realizar una acción, las colecciones de neuronas en su cerebro responsables de la liberación de dopamina hacen una predicción sobre cuán gratificante será la acción. Una vez que se ha llevado a cabo la acción y se han hecho evidentes las consecuencias (recompensas) de esa acción, el cerebro libera dopamina. Sin embargo, esta liberación de dopamina se escala de acuerdo con el tamaño del error en la predicción. Si la recompensa es mayor/mejor de lo esperado, se desencadena un aumento más fuerte de dopamina. Por el contrario, una peor recompensa lleva a que se libere menos dopamina. La dopamina sirve como una función correctiva que hace que las neuronas ajusten sus predicciones hasta que converjan en las recompensas reales que se obtienen. Esto es muy similar a cómo funcionan los algoritmos de aprendizaje por refuerzo.

En el año 2017, los investigadores de DeepMind lanzaron una versión mejorada de un algoritmo de aprendizaje por refuerzo de uso común, y este método de aprendizaje superior pudo mejorar el rendimiento en muchas tareas de aprendizaje por refuerzo. El equipo de DeepMind pensó que los mecanismos detrás del nuevo algoritmo podrían usarse para explicar mejor cómo funcionan las neuronas de dopamina dentro del cerebro humano.

A diferencia de los algoritmos de aprendizaje por refuerzo más antiguos, el algoritmo más nuevo de DeepMind representa las recompensas como una distribución. Los enfoques de aprendizaje por refuerzo más antiguos representaban las recompensas estimadas como un solo número que representaba el resultado promedio esperado. Este cambio permitió que el modelo representara con mayor precisión las posibles recompensas y, como resultado, funcionara mejor. El rendimiento superior del nuevo método de entrenamiento llevó a los investigadores de DeepMind a investigar si las neuronas de dopamina en el cerebro humano funcionan de manera similar.

Para investigar el funcionamiento de las neuronas dopaminérgicas, DeepMind trabajó junto con Harvard para investigar la actividad de las neuronas dopaminérgicas en ratones. Los investigadores hicieron que los ratones realizaran varias tareas y les dieron recompensas basadas en la tirada de dados, registrando cómo se activaron sus neuronas de dopamina. Diferentes neuronas parecían predecir diferentes resultados potenciales, liberando diferentes cantidades de dopamina. Algunas neuronas predijeron una recompensa inferior a la real, mientras que otras predijeron recompensas superiores a la recompensa real. Después de graficar la distribución de las predicciones de recompensa, los investigadores encontraron que la distribución de las predicciones estaba bastante cerca de la distribución de recompensa genuina. Esto sugiere que el cerebro hace uso de un sistema de distribución cuando hace predicciones y ajusta las predicciones para que coincidan mejor con la realidad.

El estudio podría informar tanto a la neurociencia como a la informática. El estudio respalda el uso del aprendizaje por refuerzo distribucional como método para crear modelos de IA más avanzados. Más allá de eso, podría tener implicaciones para nuestras teorías sobre cómo funciona el cerebro con respecto a los sistemas de recompensa. Si las neuronas de dopamina están distribuidas y algunas son más pesimistas u optimistas que otras, comprender estas distribuciones podría alterar la forma en que abordamos aspectos de la psicología como la salud mental y la motivación.

Como informó MIT Technology View, Matt Botvinik, director de investigación en neurociencia de DeepMind, explicó la importancia de los hallazgos en una rueda de prensa. Botvinik dijo:

“Si el cerebro lo está usando, probablemente sea una buena idea. Nos dice que esta es una técnica computacional que puede escalar en situaciones del mundo real. Va a encajar bien con otros procesos computacionales. Nos da una nueva perspectiva sobre lo que sucede en nuestro cerebro durante la vida cotidiana”