заглушки DeepMind создает ИИ, который воспроизводит воспоминания подобно гиппокампу - Unite.AI
Свяжитесь с нами:

Artificial Intelligence

DeepMind создает ИИ, который воспроизводит воспоминания подобно гиппокампу

mm
обновленный on

Человеческий мозг часто вспоминает прошлые воспоминания (на первый взгляд) без подсказки. В течение дня у нас возникают спонтанные вспышки воспоминаний из нашей жизни. Хотя это спонтанное заклинание воспоминаний уже давно представляет интерес для нейробиологов, исследовательская компания ИИ DeepMind недавно опубликовал статью подробно описывая, как их ИИ воспроизвел этот странный образец воспоминания.

Воспроизведение воспоминаний в мозгу, нейронное воспроизведение, тесно связано с гиппокамп. Гиппокамп — это образование в мозге в форме морского конька, принадлежащее к лимбической системе и связанное с формированием новых воспоминаний, а также с эмоциями, которые вызывают воспоминания. Современные теории о роли гиппокампа (по одному в каждом полушарии мозга) утверждают, что разные области гиппокампа отвечают за обработку разных типов воспоминаний. Например, считается, что пространственная память обрабатывается в задней области гиппокампа.

Как сообщает Хесус Родригес,  Доктор Джон О'Киф отвечает за многие вклады в наше понимание гиппокампа, включая гиппокамп «поместить» ячейки. Клетки места в гиппокампе активируются стимулами в определенной среде. Например, эксперименты на крысах показали, что определенные нейроны срабатывают, когда крысы пробегают определенные участки дорожки. Исследователи продолжали наблюдать за крысами, даже когда они отдыхали, и обнаружили, что одни и те же структуры нейронов, обозначающие часть лабиринта, срабатывают, хотя они срабатывают с ускоренной скоростью. Крысы, казалось, прокручивали в уме воспоминания о лабиринте.

У людей вспоминание воспоминаний является важной частью процесса обучения, но при попытке дать возможность ИИ учиться воссоздать это явление сложно.

Команда DeepMind приступила к попытке воссоздать феномен припоминания с помощью обучения с подкреплением. Алгоритмы обучения с подкреплением работают, получая обратную связь от их взаимодействия с окружающей средой, получая вознаграждение всякий раз, когда они предпринимают действия, которые приближают их к желаемой цели. В этом контексте агент обучения с подкреплением записывает события, а затем воспроизводит их в более позднее время, при этом система подкрепляется, чтобы улучшить, насколько эффективно она в конечном итоге вспоминает прошлый опыт.

DeepMind добавила воспроизведение опыта в алгоритм обучения с подкреплением, используя буфер воспроизведения, который будет воспроизводить воспоминания/записанный опыт в системе в определенное время. В некоторых версиях системы опыт воспроизводился в случайном порядке, в то время как в других моделях порядок воспроизведения был выбран заранее. В то время как исследователи экспериментировали с порядком воспроизведения для агентов подкрепления, они также экспериментировали с различными методами воспроизведения самих переживаний.

Есть два основных метода, которые используются для обеспечения алгоритмов подкрепления воспоминаниями. Этими методами являются метод воспроизведения воображения и метод воспроизведения фильма. В статье DeepMind используется аналогия для описания обеих стратегий:

«Предположим, вы приходите домой и, к своему удивлению и тревоге, обнаруживаете, что на ваших красивых деревянных полах скапливается вода. Войдя в столовую, вы находите разбитую вазу. Затем вы слышите хныканье и выглядываете из-за двери внутреннего дворика, чтобы увидеть, что ваша собака выглядит очень виноватой».

Как сообщил Родригес, метод воспроизведения воображения не записывает события в том порядке, в котором они были пережиты. Скорее, выводится вероятная причина между событиями. События выводятся на основе понимания мира агентом. Между тем, метод повтора фильма сохраняет воспоминания в том порядке, в котором происходили события, и воспроизводит последовательность стимулов — «пролитая вода, разбитая ваза, собака». Хронологический порядок событий сохранен.

Исследования в области нейронауки предполагают, что метод воспроизведения фильма является неотъемлемой частью создания ассоциаций между понятиями и связи нейронов между событиями. Тем не менее метод воспроизведения воображения может помочь агенту создавать новые последовательности, когда он рассуждает по аналогии. Например, агент может предположить, что если бочка предназначена для масла, как ваза для воды, то бочку может пролить заводской робот, а не собака. Действительно, когда DeepMind углубился в возможности метода воспроизведения воображения, они обнаружили, что их обучающий агент способен создавать впечатляющие инновационные последовательности, принимая во внимание предыдущий опыт.

Большая часть текущего прогресса, достигнутого в области обучения памяти с подкреплением, достигается с помощью стратегии кино, хотя недавно исследователи начали добиваться прогресса со стратегией воображения. Исследования обоих методов памяти ИИ могут не только повысить производительность агентов обучения с подкреплением, но также могут помочь нам получить новое представление о том, как может функционировать человеческий разум.