taló DeepMind descobreix una tècnica d'entrenament en IA que també pot funcionar al nostre cervell - Unite.AI
Connecteu-vos amb nosaltres

Intel·ligència Artificial

DeepMind descobreix una tècnica d'entrenament en IA que també pot funcionar al nostre cervell

mm
actualitzat on

DeepMind fa poc va publicar un article detallant com un tipus d'aprenentatge de reforç recentment desenvolupat podria explicar com funcionen les vies de recompensa dins del cervell humà. Segons informa NewScientist, el mètode d'entrenament d'aprenentatge automàtic s'anomena aprenentatge de reforç distributiu i els mecanismes que hi ha darrere semblen explicar de manera plausible com les neurones alliberen la dopamina dins del cervell.

La neurociència i la informàtica tenen una llarga història juntes. Ja l'any 1951, Marvin Minksy va utilitzar un sistema de recompenses i càstigs per crear un programa informàtic capaç de resoldre un laberint. Minksy es va inspirar en el treball d'Ivan Pavlov, un fisiòleg que va demostrar que els gossos podien aprendre mitjançant una sèrie de recompenses i càstigs. El nou article de Deepmind s'afegeix a la història entrellaçada de la neurociència i la informàtica aplicant un tipus d'aprenentatge de reforç per obtenir una visió de com poden funcionar les neurones de dopamina.

Sempre que una persona, o un animal, està a punt de dur a terme una acció, les col·leccions de neurones del seu cervell responsables de l'alliberament de dopamina fan una predicció sobre com serà de gratificant l'acció. Un cop s'ha dut a terme l'acció i les conseqüències (recompenses) d'aquesta acció es fan evidents, el cervell allibera dopamina. Tanmateix, aquest alliberament de dopamina s'escala d'acord amb la mida de l'error de predicció. Si la recompensa és més gran/millor del que s'esperava, es desencadena un augment més fort de dopamina. En canvi, una recompensa pitjor fa que s'alliberi menys dopamina. La dopamina serveix com a funció correctora que fa que les neurones ajusten les seves prediccions fins que convergeixen en les recompenses reals que s'obtenen. Això és molt semblant a com funcionen els algorismes d'aprenentatge de reforç.

L'any 2017, els investigadors de DeepMind van llançar una versió millorada d'un algorisme d'aprenentatge de reforç utilitzat habitualment, i aquest mètode d'aprenentatge superior va poder augmentar el rendiment en moltes tasques d'aprenentatge de reforç. L'equip de DeepMind va pensar que els mecanismes darrere del nou algorisme es podrien utilitzar per explicar millor com funcionen les neurones de dopamina dins del cervell humà.

A diferència dels antics algorismes d'aprenentatge de reforç, el nou algorisme de DeepMind representa les recompenses com a distribució. Els enfocaments d'aprenentatge de reforç més antics representaven les recompenses estimades com un sol nombre que representava el resultat mitjà esperat. Aquest canvi va permetre al model representar amb més precisió les possibles recompenses i, com a resultat, un millor rendiment. El rendiment superior del nou mètode d'entrenament va impulsar els investigadors de DeepMind a investigar si les neurones de dopamina del cervell humà funcionen de manera similar.

Per investigar el funcionament de les neurones de dopamina, DeepMind va treballar juntament amb Harvard per investigar l'activitat de les neurones de dopamina en ratolins. Els investigadors van fer que els ratolins fessin diverses tasques i els van donar recompenses basades en el llançament de daus, registrant com es disparaven les seves neurones de dopamina. Diferents neurones semblaven predir diferents resultats potencials, alliberant diferents quantitats de dopamina. Algunes neurones van predir una recompensa inferior a la real, mentre que algunes van predir recompenses superiors a la recompensa real. Després de dibuixar gràficament la distribució de les prediccions de la recompensa, els investigadors van trobar que la distribució de les prediccions era bastant propera a la distribució de la recompensa genuïna. Això suggereix que el cervell fa ús d'un sistema de distribució quan fa prediccions i ajusta les prediccions per adaptar-se millor a la realitat.

L'estudi podria informar tant en neurociència com en informàtica. L'estudi dóna suport a l'ús de l'aprenentatge de reforç distributiu com a mètode per crear models d'IA més avançats. Més enllà d'això, podria tenir implicacions per a les nostres teories sobre com funciona el cervell pel que fa als sistemes de recompensa. Si les neurones de la dopamina es distribueixen i algunes són més pessimistes o optimistes que altres, entendre aquestes distribucions podria alterar la manera com ens apropem a aspectes de la psicologia com la salut mental i la motivació.

Tal com va informar MIT Technology View, Matt Botvinik, director d'investigació en neurociència de DeepMind, va explicar la importància de les troballes en una roda de premsa. Botvinik ha dit:

"Si el cervell l'està utilitzant, probablement sigui una bona idea. Ens diu que aquesta és una tècnica computacional que es pot escalar en situacions del món real. Encaixarà bé amb altres processos computacionals. Ens dóna una nova perspectiva del que passa al nostre cervell durant la vida quotidiana”