stub DeepMind odkrywa technikę treningu AI, która może działać również w naszych mózgach - Unite.AI
Kontakt z nami

Artificial Intelligence

DeepMind odkrywa technikę treningu AI, która może działać również w naszych mózgach

mm
Zaktualizowano on

Niedawno DeepMind opublikował artykuł szczegółowo opisując, w jaki sposób nowo opracowany rodzaj uczenia się przez wzmacnianie może potencjalnie wyjaśnić działanie ścieżek nagrody w ludzkim mózgu. Jak podaje NewScientist, metoda uczenia się maszynowego nazywa się uczeniem przez wzmacnianie dystrybucyjne, a stojące za nią mechanizmy wydają się w przekonujący sposób wyjaśniać, w jaki sposób dopamina jest uwalniana przez neurony w mózgu.

Neuronauka i informatyka mają ze sobą długą historię. Już w 1951 roku Marvin Minksy zastosował system nagród i kar, aby stworzyć program komputerowy potrafiący rozwiązać labirynt. Inspiracją dla Minksy były prace Iwana Pawłowa, fizjologa, który wykazał, że psy mogą uczyć się poprzez serię nagród i kar. Nowy artykuł Deepmind uzupełnia historię splatającej się neurologii i informatyki, stosując rodzaj uczenia się przez wzmacnianie, aby uzyskać wgląd w to, jak mogą funkcjonować neurony dopaminy.

Ilekroć osoba lub zwierzę ma zamiar wykonać jakąś czynność, zbiory neuronów w jej mózgu odpowiedzialnych za uwalnianie dopaminy pozwalają przewidzieć, jak satysfakcjonujące będzie to działanie. Gdy działanie zostanie wykonane i konsekwencje (nagrody) tego działania staną się widoczne, mózg uwalnia dopaminę. Jednakże to uwalnianie dopaminy jest skalowane zgodnie z wielkością błędu przewidywania. Jeśli nagroda jest większa/lepsza niż oczekiwano, wyzwalany jest silniejszy przypływ dopaminy. Natomiast gorsza nagroda prowadzi do uwalniania mniejszej ilości dopaminy. Dopamina pełni funkcję korygującą, która sprawia, że ​​neurony dostosowują swoje przewidywania, aż zbiegają się z rzeczywistymi zdobytymi nagrodami. Działa to bardzo podobnie do algorytmów uczenia się przez wzmacnianie.

W roku 2017 badacze DeepMind wypuścili ulepszoną wersję powszechnie używanego algorytmu uczenia się przez wzmacnianie, a ta doskonała metoda uczenia się była w stanie zwiększyć wydajność wielu zadań związanych z uczeniem się przez wzmacnianie. Zespół DeepMind pomyślał, że mechanizmy stojące za nowym algorytmem można wykorzystać do lepszego wyjaśnienia działania neuronów dopaminy w ludzkim mózgu.

W przeciwieństwie do starszych algorytmów uczenia się przez wzmacnianie, nowszy algorytm DeepMind przedstawia nagrody w formie podziału. Starsze podejścia do uczenia się przez wzmacnianie przedstawiały szacunkowe nagrody jako pojedynczą liczbę, która oznaczała średni oczekiwany wynik. Ta zmiana umożliwiła modelowi dokładniejsze przedstawienie możliwych nagród i w rezultacie lepsze działanie. Doskonałe wyniki nowej metody treningowej skłoniły badaczy z DeepMind do zbadania, czy neurony dopaminy w ludzkim mózgu działają w podobny sposób.

Aby zbadać działanie neuronów dopaminowych, firma DeepMind współpracowała z Harvardem nad badaniem aktywności neuronów dopaminowych u myszy. Naukowcy poprosili myszy o wykonanie różnych zadań i przyznali im nagrody na podstawie rzutu kostką, rejestrując, jak aktywują się ich neurony dopaminowe. Różne neurony zdawały się przewidywać różne potencjalne wyniki, uwalniając różne ilości dopaminy. Niektóre neurony przewidywały nagrodę niższą niż rzeczywista, podczas gdy inne przewidywały nagrody wyższe niż rzeczywista nagroda. Po sporządzeniu wykresu rozkładu przewidywań nagród badacze odkryli, że rozkład przewidywań był dość zbliżony do rzeczywistego rozkładu nagród. Sugeruje to, że mózg rzeczywiście korzysta z systemu dystrybucji podczas tworzenia przewidywań i dostosowywania przewidywań, aby lepiej odpowiadały rzeczywistości.

Badanie może dostarczyć informacji zarówno neuronauce, jak i informatyce. Badanie wspiera wykorzystanie uczenia się przez wzmacnianie dystrybucyjne jako metody tworzenia bardziej zaawansowanych modeli sztucznej inteligencji. Poza tym może to mieć konsekwencje dla naszych teorii dotyczących działania mózgu w odniesieniu do systemów nagrody. Jeśli neurony dopaminowe są rozmieszczone, a niektóre są bardziej pesymistyczne lub optymistyczne niż inne, zrozumienie tych rozkładów może zmienić sposób, w jaki podchodzimy do aspektów psychologii, takich jak zdrowie psychiczne i motywacja.

Jak donosi MIT Technology ViewMatt Botvinik, dyrektor ds. badań neurologicznych w DeepMind, wyjaśnił znaczenie odkryć na konferencji prasowej. Botwinik powiedział:

„Jeśli mózg z tego korzysta, prawdopodobnie jest to dobry pomysł. Mówi nam, że jest to technika obliczeniowa, którą można skalować w rzeczywistych sytuacjach. Będzie dobrze pasować do innych procesów obliczeniowych. Daje nam nowe spojrzenie na to, co dzieje się w naszych mózgach podczas codziennego życia”