Umělá inteligence

DeepMind objevila techniku školení AI, která může fungovat i v našich mozcích

Published January 18, 2020

Updated April 28, 2026

Daniel Nelson

DeepMind nedávno zveřejnila článek, který popisuje, jak nově vyvinutý typ učení s posilováním může potenciálně vysvětlovat, jak fungují cesty odměn v lidském mozku. Podle článku na NewScientist je tato metoda školení nazývána distribuční učení s posilováním a mechanismy, které za ní stojí, se jeví jako pravděpodobné vysvětlení, jak je uvolňován dopamin neuronami v mozku.

Neurověda a počítačová věda mají dlouhou historii spolu. Již v roce 1951 Marvin Minsky použil systém odměn a trestů k vytvoření počítačového programu, který byl schopen vyřešit bludiště. Minsky byl inspirován prací Ivana Pavlova, fyziologa, který prokázal, že psi mohou učit prostřednictvím série odměn a trestů. Nová studie DeepMind přidává k propojené historii neurovědy a počítačové vědy aplikací typu učení s posilováním, aby získala vhled do toho, jak mohou fungovat dopaminové neurony.

Každý člověk, nebo zvíře, předtím, než provede akci, vytváří kolekce neuronů v mozku zodpovědných za uvolňování dopaminu předpověď o tom, jak odměňující bude akce. Jakmile je akce provedena a důsledky (odměny) této akce jsou zřejmé, mozek uvolňuje dopamin. Nicméně, toto uvolňování dopaminu je měřítkem chyby v předpovědi. Pokud je odměna větší/lepší, než se očekávalo, je spuštěn silnější příval dopaminu. Naopak, horší odměna vede k menšímu uvolňování dopaminu. Dopamin slouží jako korekční funkce, která způsobuje, že neurony upravují své předpovědi, dokud se nesjednotí s skutečnými odměnami, které jsou získány. To je velmi podobné tomu, jak fungují algoritmy učení s posilováním.

V roce 2017 zveřejnili výzkumníci z DeepMind vylepšenou verzi běžně používaného algoritmu učení s posilováním a tato vylepšená metoda učení byla schopna zvýšit výkon mnoha úkolů učení s posilováním. Tým DeepMind se domníval, že mechanismy za novým algoritmem by mohly být použity k lepšímu vysvětlení, jak fungují dopaminové neurony v lidském mozku.

Na rozdíl od starších algoritmů učení s posilováním, nový algoritmus DeepMind reprezentuje odměny jako distribuci. Starší přístupy k učení s posilováním reprezentovaly odhadované odměny jako jediné číslo, které zastupovalo průměrný očekávaný výsledek. Tato změna umožnila modelu lépe reprezentovat možné odměny a lépe fungovat jako výsledek. Lepší výkon nové metody učení vedl výzkumníky z DeepMind k vyšetřování, zda dopaminové neurony v lidském mozku fungují podobným způsobem.

Aby mohli vyšetřit fungování dopaminových neuronů, DeepMind spolupracovala s Harvardem na výzkumu aktivity dopaminových neuronů u myší. Výzkumníci nechali myši provádět různé úkoly a dávali jim odměny na základě hodů kostek, zaznamenávají, jak jejich dopaminové neurony fungovaly. Různé neurony se zdály předpovídat různé potenciální výsledky, uvolňující různé množství dopaminu. Některé neurony předpovídaly nižší než skutečnou odměnu, zatímco některé předpovídaly odměny vyšší než skutečnou odměnu. Po vykreslení distribuce předpovědí odměn výzkumníci našli, že distribuce předpovědí byla poměrně blízká skutečné distribuci odměn. To naznačuje, že mozek skutečně používá distribuční systém při vytváření předpovědí a úpravě předpovědí, aby lépe odpovídaly realitě.

Studie může informovat obě neurovědu i počítačovou vědu. Studie podporuje použití distribučního učení s posilováním jako metody pro vytvoření pokročilejších modelů AI. Kromě toho může mít důsledky pro naše teorie o tom, jak mozek funguje v souvislosti se systémy odměn. Pokud jsou dopaminové neurony distribuovány a některé jsou více pesimistické nebo optimistické než jiné, pochopení těchto distribucí by mohlo změnit, jak přistupujeme k aspektům psychologie, jako je duševní zdraví a motivace.

Podle článku na MIT Technology View vysvětlil Matt Botvinik, ředitel neurovědeckého výzkumu v DeepMind, důležitost zjištění na tiskové konferenci. Botvinik řekl:

„Pokud mozek používá tuto metodu, je to pravděpodobně dobrý nápad. Říká nám, že se jedná o výpočetní techniku, která může fungovat v reálných situacích. Bude se dobře hodit k ostatním výpočetním procesům. Poskytuje nám nový pohled na to, co se děje v našich mozcích během každodenního života“