stomp DeepMind ontdekt AI-trainingstechniek die mogelijk ook in onze hersenen werkt - Unite.AI
Verbind je met ons

Artificial Intelligence

DeepMind ontdekt AI-trainingstechniek die mogelijk ook in onze hersenen werkt

mm
Bijgewerkt on

DeepMind onlangs een paper gepubliceerd detaillering hoe een nieuw ontwikkeld type van versterkend leren mogelijk zou kunnen verklaren hoe beloningsroutes in het menselijk brein werken. Dat meldt NewScientistDe trainingsmethode voor machinaal leren wordt distributioneel versterkend leren genoemd en de mechanismen erachter lijken op plausibele wijze te verklaren hoe dopamine wordt vrijgegeven door neuronen in de hersenen.

Neurowetenschappen en informatica hebben samen een lange geschiedenis. Al in 1951 gebruikte Marvin Minksy een systeem van beloningen en straffen om een ​​computerprogramma te maken dat een doolhof kon oplossen. Minksy werd geïnspireerd door het werk van Ivan Pavlov, een fysioloog die aantoonde dat honden konden leren door middel van een reeks beloningen en straffen. Het nieuwe artikel van Deepmind draagt ​​bij aan de verweven geschiedenis van neurowetenschap en informatica door een soort versterkend leren toe te passen om inzicht te krijgen in hoe dopamine-neuronen zouden kunnen functioneren.

Telkens wanneer een persoon of dier op het punt staat een handeling uit te voeren, voorspellen de verzamelingen neuronen in hun hersenen die verantwoordelijk zijn voor de afgifte van dopamine, hoe lonend de handeling zal zijn. Zodra de actie is uitgevoerd en de gevolgen (beloningen) van die actie duidelijk zijn geworden, geven de hersenen dopamine vrij. Deze dopamine-afgifte wordt echter geschaald in overeenstemming met de grootte van de voorspellingsfout. Als de beloning groter/beter is dan verwacht, wordt een sterkere toename van dopamine geactiveerd. Een slechtere beloning leidt er daarentegen toe dat er minder dopamine vrijkomt. De dopamine dient als een corrigerende functie die ervoor zorgt dat de neuronen hun voorspellingen afstemmen totdat ze convergeren naar de werkelijke beloningen die worden verdiend. Dit lijkt sterk op hoe algoritmen voor leerversterking werken.

In 2017 brachten DeepMind-onderzoekers een verbeterde versie uit van een veelgebruikt algoritme voor versterkend leren, en deze superieure leermethode was in staat om de prestaties van veel lerende leertaken te verbeteren. Het DeepMind-team dacht dat de mechanismen achter het nieuwe algoritme konden worden gebruikt om beter uit te leggen hoe dopamine-neuronen in het menselijk brein werken.

In tegenstelling tot oudere algoritmen voor leerversterking, vertegenwoordigt het nieuwere algoritme van DeepMind beloningen als een verdeling. Oudere benaderingen van versterkend leren vertegenwoordigden geschatte beloningen als slechts een enkel getal dat stond voor het gemiddelde verwachte resultaat. Door deze wijziging kon het model mogelijke beloningen nauwkeuriger weergeven en daardoor beter presteren. De superieure prestaties van de nieuwe trainingsmethode brachten de DeepMind-onderzoekers ertoe om te onderzoeken of dopamine-neuronen in het menselijk brein op een vergelijkbare manier werken.

Om de werking van dopamine-neuronen te onderzoeken, werkte DeepMind samen met Harvard om de activiteit van dopamine-neuronen bij muizen te onderzoeken. De onderzoekers lieten de muizen verschillende taken uitvoeren en beloonden ze op basis van de worp met dobbelstenen, waarbij ze registreerden hoe hun dopamine-neuronen vuurden. Verschillende neuronen leken verschillende mogelijke resultaten te voorspellen, waarbij verschillende hoeveelheden dopamine vrijkwamen. Sommige neuronen voorspelden een lagere beloning dan de daadwerkelijke beloning, terwijl sommige een hogere beloning voorspelden dan de daadwerkelijke beloning. Nadat ze de verdeling van de beloningsvoorspellingen in kaart hadden gebracht, ontdekten de onderzoekers dat de verdeling van de voorspellingen redelijk dicht bij de echte beloningsverdeling lag. Dit suggereert dat de hersenen gebruik maken van een distributiesysteem bij het doen van voorspellingen en het aanpassen van voorspellingen om beter overeen te komen met de werkelijkheid.

De studie zou zowel de neurowetenschap als de informatica kunnen informeren. De studie ondersteunt het gebruik van leren over distributieversterking als een methode om meer geavanceerde AI-modellen te creëren. Afgezien daarvan kan het implicaties hebben voor onze theorieën over hoe de hersenen werken met betrekking tot beloningssystemen. Als dopamine-neuronen verspreid zijn en sommige pessimistischer of optimistischer zijn dan andere, kan het begrijpen van deze distributies de manier veranderen waarop we aspecten van de psychologie benaderen, zoals geestelijke gezondheid en motivatie.

Zoals MIT Technology View meldde, legde Matt Botvinik, de directeur van neurowetenschappelijk onderzoek bij DeepMind, het belang van de bevindingen uit tijdens een persconferentie. Botvinik zei:

“Als de hersenen het gebruiken, is het waarschijnlijk een goed idee. Het vertelt ons dat dit een computationele techniek is die kan worden geschaald in situaties in de echte wereld. Het gaat goed passen bij andere rekenprocessen. Het geeft ons een nieuw perspectief op wat er gaande is in onze hersenen in het dagelijks leven”

Blogger en programmeur met specialiteiten in Machine leren en Diepe leren onderwerpen. Daniel hoopt anderen te helpen de kracht van AI te gebruiken voor maatschappelijk welzijn.