Зв'язатися з нами

DeepMind відкриває методику навчання штучному інтелекту, яка також може працювати в нашому мозку

Штучний Інтелект

DeepMind відкриває методику навчання штучному інтелекту, яка також може працювати в нашому мозку

mm

DeepMind зовсім недавно опублікував статтю детально описуючи, як нещодавно розроблений тип навчання з підкріпленням потенційно може пояснити, як працюють шляхи винагороди в людському мозку. Як повідомляє NewScientist, метод машинного навчання називається навчанням із розподільним підкріпленням, і механізми, що стоять за ним, здається, правдоподібно пояснюють, як дофамін виділяється нейронами в мозку.

Нейронаука та інформатика мають довгу спільну історію. Ще в 1951 році Марвін Мінксі використовував систему винагород і покарань, щоб створити комп'ютерну програму, здатну розгадувати лабіринт. Мінксі був натхненний роботою Івана Павлова, фізіолога, який продемонстрував, що собаки можуть вчитися за допомогою серії нагород і покарань. Нова стаття Deepmind доповнює переплетення історії неврології та інформатики, застосовуючи тип навчання з підкріпленням, щоб отримати уявлення про те, як можуть функціонувати нейрони дофаміну.

Щоразу, коли людина чи тварина збираються виконати дію, нейрони в їхньому мозку, відповідальні за вивільнення дофаміну, передбачають, наскільки корисною буде ця дія. Коли дія виконана і наслідки (винагороди) цієї дії стають очевидними, мозок вивільняє дофамін. Однак цей викид дофаміну масштабується відповідно до розміру помилки прогнозу. Якщо винагорода більша/краща, ніж очікувалося, запускається сильніший сплеск дофаміну. Навпаки, гірша винагорода призводить до меншого виділення дофаміну. Дофамін виконує коригувальну функцію, яка змушує нейрони налаштовувати свої прогнози, доки вони не збігаються з фактично отриманими винагородами. Це дуже схоже на те, як працюють алгоритми навчання з підкріпленням.

У 2017 році дослідники DeepMind випустили покращену версію широко використовуваного алгоритму навчання з підкріпленням, і цей чудовий метод навчання зміг підвищити продуктивність багатьох завдань навчання з підкріпленням. Команда DeepMind вважала, що механізми, що стоять за новим алгоритмом, можна використати, щоб краще пояснити, як дофамінові нейрони працюють у людському мозку.

На відміну від старих алгоритмів навчання з підкріпленням, новіший алгоритм DeepMind представляє винагороду як розподіл. Старіші підходи до навчання з підкріпленням представляли приблизну винагороду як одне число, яке позначало середній очікуваний результат. Ця зміна дозволила моделі точніше представити можливі винагороди та, як наслідок, підвищити ефективність. Чудова ефективність нового методу навчання спонукала дослідників DeepMind дослідити, чи дофамінові нейрони в мозку людини працюють подібним чином.

Щоб дослідити роботу дофамінових нейронів, DeepMind разом із Гарвардом досліджували активність дофамінових нейронів у мишей. Дослідники змушували мишей виконувати різні завдання та давали їм нагороди на основі кидання кубиків, записуючи, як спрацьовують їхні дофамінові нейрони. Здається, що різні нейрони передбачають різні потенційні результати, вивільняючи різну кількість дофаміну. Деякі нейрони передбачили нижчу винагороду, ніж фактична винагорода, тоді як деякі передбачили винагороду вищу, ніж фактична винагорода. Побудувавши графік розподілу передбачених винагород, дослідники виявили, що розподіл прогнозів був досить близьким до справжнього розподілу винагород. Це свідчить про те, що мозок дійсно використовує систему розподілу, коли робить прогнози та коригує прогнози, щоб краще відповідати реальності.

Дослідження може інформувати як нейронауку, так і інформатику. Дослідження підтримує використання навчання з розподільним підкріпленням як методу створення більш просунутих моделей ШІ. Крім того, це може мати наслідки для наших теорій про те, як мозок працює щодо систем винагороди. Якщо дофамінові нейрони розподілені, і деякі з них більш песимістичні чи оптимістичні, ніж інші, розуміння цих розподілів може змінити наш підхід до таких аспектів психології, як психічне здоров’я та мотивація.

Як повідомляє MIT Technology ViewМетт Ботвінік, директор відділу нейронаук DeepMind, пояснив важливість отриманих результатів на брифінгу для преси. Ботвіник сказав:

«Якщо це використовує мозок, це, ймовірно, гарна ідея. Це говорить нам, що це обчислювальна техніка, яка може масштабуватися в реальних ситуаціях. Він добре поєднується з іншими обчислювальними процесами. Це дає нам новий погляд на те, що відбувається в нашому мозку протягом повсякденного життя»