Kunstig intelligens
DeepMind Oppdager AI-Treningsteknikk Som Kanskje Også Fungerer I Våre Hjerner

DeepMind har nylig publisert en artikkel som beskriver hvordan en ny type forsterket læring kan potensielt forklare hvordan belønningsbaner i menneskehjernen fungerer. Ifølge NewScientist, er maskinlærings-treningmetoden kalt distribusjonell forsterket læring, og mekanismene bak den ser ut til å forklare hvordan dopamin frigjøres av nevroner i hjernen.
Nevrovitenskap og datavitenskap har en lang historie sammen. Så langt tilbake som 1951, brukte Marvin Minsky et system av belønninger og straffer for å lage et dataprogram som kunne løse en labyrint. Minsky var inspirert av arbeidet til Ivan Pavlov, en fysiolog som viste at hunder kunne lære gjennom en serie belønninger og straffer. DeepMinds nye artikkel bidrar til den sammenflettede historien mellom nevrovitenskap og datavitenskap ved å bruke en type forsterket læring for å få innsikt i hvordan dopamin-nevroner kan fungere.
Når en person eller dyr er på veg til å utføre en handling, gjør samlingen av nevroner i hjernen som er ansvarlige for frigjøringen av dopamin en prediksjon om hvor belønningssvak den handlingen vil være. Når handlingen er utført og konsekvensene (belønningene) av den handlingen er åpenbare, frigjør hjernen dopamin. Imidlertid er denne dopamin-frigjøringen skalert i henhold til størrelsen på feilen i prediksjonen. Hvis belønningen er større/b bedre enn forventet, utløses en sterkere dopamin-surge. Til gjengjeld fører en dårligere belønning til at mindre dopamin frigjøres. Dopaminen fungerer som en korrektur-funksjon som gjør at nevronene finjusterer sine prediksjoner til de konvergerer mot de faktiske belønningene som er tjent. Dette er svært likt hvordan forsterket læring-algoritmer opererer.
I 2017 slapp DeepMind-forskerne en forbedret versjon av en vanlig brukt forsterket læring-algoritme, og denne overlegne læringmetoden kunne forbedre ytelsen på mange forsterket læring-oppgaver. DeepMind-teamet trodde at mekanismene bak den nye algoritmen kunne brukes til å bedre forklare hvordan dopamin-nevroner opererer i menneskehjernen.
I motsetning til eldre forsterket læring-algoritmer, representerer DeepMinds nye algoritme belønninger som en distribusjon. Eldre forsterket læring-tilnærminger representerte estimerte belønninger som bare ett enkelt tall som stod for den gjennomsnittlige forventede resultat. Denne endringen tillot modellen å mer nøyaktig representere mulige belønninger og fungere bedre som resultat. Den overlegne ytelsen til den nye treningmetoden førte til at DeepMind-forskerne undersøkte om dopamin-nevroner i menneskehjernen opererer på en lignende måte.
For å undersøke virkningen av dopamin-nevroner, samarbeidet DeepMind med Harvard for å forsk på aktiviten til dopamin-nevroner i mus. Forskerne lot musene utføre ulike oppgaver og ga dem belønninger basert på terningkast, og registrerte hvordan deres dopamin-nevroner fungerte. Forskjellige nevroner syntes å prediktere forskjellige mulige resultater, og frigjorde forskjellige mengder dopamin. Noen nevroner predikterte lavere enn den faktiske belønningen, mens noen predikterte belønninger høyere enn den faktiske belønningen. Etter å ha grafisk fremstilt distribusjonen av belønningsprediksjonene, fant forskerne at distribusjonen av prediksjoner var ganske nær den ekte belønningsdistribusjonen. Dette antyder at hjernen faktisk bruker et distribusjonssystem når det gjelder å gjøre prediksjoner og justere prediksjoner for å bedre matche virkeligheten.
Studien kan informere både nevrovitenskap og datavitenskap. Studien støtter bruken av distribusjonell forsterket læring som en metode for å lage mer avanserte AI-modeller. Ut over det kan den ha implikasjoner for våre teorier om hvordan hjernen opererer med hensyn til belønningsystemer. Hvis dopamin-nevroner er distribuert og noen er mer pessimistiske eller optimistiske enn andre, kan forståelsen av disse distribusjonene endre hvordan vi nærmer oss aspekter av psykologi som mental helse og motivasjon.
Ifølge MIT Technology View, forklarte Matt Botvinik, direktøren for nevrovitenskapelig forskning ved DeepMind, betydningen av funnene under en pressekonferanse. Botvinik sa:
“Hvis hjernen bruker det, er det sannsynligvis en god idé. Det forteller oss at dette er en beregningsmetode som kan skaleres i virkelige situasjoner. Det vil passe godt med andre beregningsprosesser. Det gir oss en ny perspektiv på hva som skjer i våre hjerner under hverdagslivet”












