Свяжитесь с нами:

DIAMOND: визуальные детали имеют значение в Atari и Diffusion для моделирования мира

Искусственный интеллект

DIAMOND: визуальные детали имеют значение в Atari и Diffusion для моделирования мира

mm

Это было в 2018 году, когда возникла идея усиление обучения Впервые была представлена ​​модель мира нейронной сети, и вскоре этот фундаментальный принцип был применен к моделям мира. Одними из известных моделей, реализующих обучение с подкреплением, была платформа Dreamer, которая ввела обучение с подкреплением из скрытого пространства модели рекуррентного пространства состояний. DreamerV2 продемонстрировал, что использование дискретных скрытых значений может привести к уменьшению ошибок компаундирования, а платформа DreamerV3 смогла достичь производительности, сравнимой с человеческой, при выполнении ряда задач в разных областях с фиксированными гиперпараметрами. 

Более того, можно провести параллели между моделями генерации изображений и моделями мира, указывая на то, что прогресс, достигнутый в моделях генеративного зрения, может быть воспроизведен на благо моделей мира. С момента использования трансформаторов в обработки естественного языка фреймворки приобрели популярность, появились фреймворки DALL-E и VQGAN. Фреймворки реализовали дискретные автокодировщики для преобразования изображений в дискретные токены и смогли создавать очень мощные и эффективные модели генерации текста в изображения, используя возможности авторегрессионных преобразователей по моделированию последовательностей. В то же время диффузионные модели получили распространение, и сегодня диффузионные модели зарекомендовали себя как доминирующая парадигма для создания изображений высокого разрешения. Благодаря возможностям, предлагаемым моделями диффузии и обучением с подкреплением, предпринимаются попытки объединить два подхода с целью воспользоваться гибкостью моделей диффузии в качестве моделей траектории, моделей вознаграждения, планировщиков и политики увеличения данных в автономное обучение с подкреплением. 

Мировые модели предлагают многообещающий метод безопасного и эффективного обучения агентов обучения с подкреплением. Традиционно в этих моделях используются последовательности дискретных скрытых переменных для моделирования динамики окружающей среды. Однако такое сжатие может упустить из виду визуальные детали, имеющие решающее значение для обучения с подкреплением. В то же время популярность диффузионных моделей для генерации изображений возросла, бросая вызов традиционным методам, использующим дискретные латентные значения. Вдохновленные этим сдвигом, в этой статье мы поговорим о DIAMOND (DIffusion As a Model Of eNvironment Dreams), агенте обучения с подкреплением, обученном в рамках диффузионной модели мира. Мы изучим необходимые варианты дизайна, чтобы сделать диффузию подходящей для моделирования мира, и покажем, что улучшенные визуальные детали приводят к повышению производительности агентов. DIAMOND устанавливает новый стандарт в соревновательном тесте Atari 100k, достигая среднего нормализованного для человека балла 1.46, самого высокого показателя для агентов, прошедших обучение исключительно в рамках мировой модели. 

АЛМАЗ: ДИффузия как модель мечты об окружающей среде

Модели мира или генеративные модели окружающей среды становятся одним из наиболее важных компонентов, позволяющих генеративным агентам планировать и рассуждать о своей среде. Хотя использование обучения с подкреплением добилось значительных успехов в последние годы, модели, реализующие обучение с подкреплением, известны своей неэффективностью выборки, что значительно ограничивает их применение в реальном мире. С другой стороны, мировые модели продемонстрировали свою способность эффективно обучать агентов обучения с подкреплением в различных средах со значительно улучшенной эффективностью выборки, что позволяет модели учиться на реальном опыте. Последние модели мирового моделирования обычно моделируют динамику окружающей среды как последовательность дискретных скрытых переменных, при этом модель дискретизирует скрытое пространство, чтобы избежать усугубления ошибок на многоэтапных временных горизонтах. Хотя этот подход может дать существенные результаты, он также связан с потерей информации, что приводит к потере качества реконструкции и потере общности. Потеря информации может стать серьезным препятствием для реальных сценариев, требующих четкого определения информации, например, для обучения автономных транспортных средств. В таких задачах небольшие изменения или детали визуального ввода, такие как цвет светофора или указатель поворота впереди идущего автомобиля, могут изменить политику агента. Хотя увеличение количества дискретных латентов может помочь избежать потери информации, это значительно увеличивает затраты на вычисления. 

Кроме того, в последние годы модели диффузии стали доминирующим подходом для сред генерации высококачественных изображений, поскольку структуры, построенные на моделях диффузии, учатся обращать вспять процесс зашумления и напрямую конкурируют с некоторыми из наиболее устоявшихся подходов, моделирующих дискретные токены. и, следовательно, предлагает многообещающую альтернативу, позволяющую устранить необходимость дискретизации в мировом моделировании. Модели диффузии известны своей способностью легко кондиционироваться и гибко моделировать сложные мультимодальные распределения без коллапса мод. Эти атрибуты имеют решающее значение для моделирования мира, поскольку кондиционирование позволяет модели мира точно отражать действия агента, что приводит к более надежному присвоению кредита. Более того, моделирование мультимодальных распределений предлагает большее разнообразие сценариев обучения агента, повышая его общую производительность. 

Опираясь на эти характеристики, был создан DIAMOND (DIffusion As a Model Of eNvironment Dreams), агент обучения с подкреплением, обученный в рамках диффузионной модели мира. Структура DIAMOND тщательно выбирает дизайн, чтобы гарантировать, что ее модель диффузного мира останется эффективной и стабильной в долгосрочной перспективе. Структура обеспечивает качественный анализ, чтобы продемонстрировать важность этих вариантов дизайна. DIAMOND устанавливает новый уровень развития со средним нормализованным показателем человека 1.46 по хорошо зарекомендовавшему себя эталонному тесту Atari 100k, что является самым высоким показателем для агентов, полностью обученных в рамках мировой модели. Работа в пространстве изображений позволяет диффузионной модели мира DIAMOND беспрепятственно заменять окружающую среду, предлагая более глубокое понимание модели мира и поведения агентов. Примечательно, что повышение производительности в некоторых играх связано с лучшим моделированием важных визуальных деталей. Платформа DIAMOND моделирует среду как стандартный POMDP или частично наблюдаемый марковский процесс принятия решений с набором состояний, набором дискретных действий и набором изображений наблюдений. Функции перехода описывают динамику среды, а функция вознаграждения отображает переходы в скалярные вознаграждения. Функция наблюдения описывает вероятности наблюдения и генерирует изображения наблюдений, которые затем используются агентами для просмотра окружающей среды, поскольку они не могут напрямую получить доступ к состояниям. Основная цель подхода состояла в том, чтобы получить политику, которая сопоставляет наблюдения с действиями с попыткой максимизировать ожидаемую доходность от дисконтирования с помощью коэффициента дисконтирования. Модели мира являются генеративными моделями среды, и модели мира могут использоваться для создания симулируемых сред для обучения агентов обучения с подкреплением в реальной среде и обучения агентов обучения с подкреплением в среде модели мира. Рисунок 1 демонстрирует развитие концепции DIAMOND с течением времени. 

АЛМАЗ: Методология и архитектура

По своей сути модели диффузии представляют собой класс генеративных моделей, которые генерируют образец, обращая процесс зашумления, и в значительной степени черпают вдохновение из неравновесной термодинамики. Структура DIAMOND рассматривает процесс диффузии, индексируемый непрерывной переменной времени с соответствующими маргинальными и граничными условиями с управляемым неструктурированным априорным распределением. Более того, чтобы получить генеративную модель, которая отображает шум в данные, структура DIAMOND должна обратить этот процесс вспять, причем процесс возврата также является диффузионным процессом, идущим назад во времени. Более того, в любой момент времени оценить функцию оценки непросто, поскольку платформа DIAMOND не имеет доступа к истинной функции оценки, и модель преодолевает это препятствие, реализуя цель сопоставления оценок - подход, который облегчает структуру для обучите модель оценки, не зная лежащую в ее основе функцию оценки. Модель диффузии на основе оценок представляет собой безусловную генеративную модель. Однако для того, чтобы служить моделью мира, требуется условная генеративная модель динамики окружающей среды, и для этой цели структура DIAMOND рассматривает общий случай подхода POMDP, в котором структура может использовать прошлые наблюдения и действия для аппроксимировать неизвестное марковское состояние. Как показано на рисунке 1, система DIAMOND использует эту историю для формирования модели диффузии, для оценки и непосредственной генерации следующего наблюдения. Хотя в теории DIAMOND можно использовать любой решатель SDE или ODE, существует компромисс между NFE или количеством оценок функций и качеством выборки, что существенно влияет на стоимость вывода диффузионных моделей. 

Опираясь на вышеизложенные знания, давайте теперь посмотрим на практическую реализацию структуры DIAMOND модели мира, основанной на диффузии, включая коэффициенты дрейфа и диффузии, соответствующие конкретному выбору диффузионного подхода. Вместо выбора DDPM, естественно подходящего кандидата для этой задачи, структура DIAMOND основывается на формулировке EDM и рассматривает ядро ​​возмущения с действительной функцией времени диффузии, называемой графиком шума. Платформа выбирает предварительные условия, чтобы сохранить дисперсию входных и выходных данных для любого уровня голоса. При обучении сети сигнал и шум адаптивно смешиваются в зависимости от уровня ухудшения, а когда шум низкий, целью становится разница между чистым и искаженным сигналом, то есть добавленный гауссовский шум. Интуитивно понятно, что это не позволяет задаче обучения стать тривиальной в режиме с низким уровнем шума. На практике этой целью является высокая дисперсия в крайних точках графика шума, поэтому модель выбирает уровень шума из логарифмически нормального распределения, выбранного эмпирически, чтобы объединить обучение вокруг областей среднего шума. Платформа DIAMOND использует стандартный 2D-компонент U-Net для векторного поля и хранит буфер прошлых наблюдений и действий, которые структура использует для самообучения. Затем структура DIAMOND объединяет эти прошлые наблюдения со следующими зашумленными наблюдениями и вводит действия через слои адаптивной групповой нормализации в остаточных блоках U-Net. 

АЛМАЗ: Эксперименты и результаты

Для всесторонней оценки платформа DIAMOND выбирает тест Atari 100k. Тест Atari 100k состоит из 26 игр, предназначенных для проверки широкого спектра возможностей агентов. В каждой игре агент ограничен 100 тысячами действий в окружающей среде, что примерно эквивалентно 2 часам человеческого игрового процесса, чтобы изучить игру перед оценкой. Для сравнения, агенты Atari без ограничений обычно тренируются по 50 миллионов шагов, что означает увеличение опыта в 500 раз. Мы обучили DIAMOND с нуля, используя 5 случайных семян для каждой игры. Каждый обучающий запуск требовал около 12 ГБ видеопамяти и занимал примерно 2.9 дня на одной Nvidia RTX 4090, что в общей сложности составляет 1.03 года графического процессора. В следующей таблице представлены баллы для всех игр, среднее значение и IQM или межквартильное среднее нормализованных человеком оценок. 

Учитывая ограничения точечных оценок, система DIAMOND обеспечивает стратифицированную бутстреп-достоверность среднего значения и IQM или межквартильное среднее нормализованных человеком показателей, а также профили производительности и дополнительные показатели, как показано на следующем рисунке. 

Результаты показывают, что DIAMOND демонстрирует исключительно высокие результаты в бенчмарке, превзойдя игроков-людей в 11 играх и достигнув сверхчеловеческого среднего HNS 1.46, установив новый рекорд для агентов, обученных полностью в рамках модели мира. Кроме того, IQM DIAMOND сопоставим со STORM и превосходит все другие базовые показатели. DIAMOND превосходен в средах, где критически важен захват мелких деталей, таких как Asterix, Breakout и RoadRunner. Более того, как обсуждалось ранее, фреймворк DIAMOND обладает гибкостью для реализации любой модели диффузии в своем конвейере. Хотя он выбирает подход EDM, естественным выбором было бы выбрать модель DDPM, поскольку она уже реализована во многих приложениях генерации изображений. Для сравнения подходов EDM и DDPM фреймворк DIAMOND обучает оба варианта с одинаковой архитектурой сети на одном и том же общем статическом наборе данных с более чем 100 тыс. кадров, собранных с использованием экспертной политики. Количество шагов шумоподавления напрямую связано со стоимостью вывода модели мира, поэтому меньшее количество шагов снизит стоимость обучения агента на воображаемых траекториях. Чтобы наша модель мира оставалась вычислительно сопоставимой с другими базовыми моделями, такими как IRIS, требующая 16 NFE на временной шаг, мы стремимся использовать не более десятков шагов шумоподавления, а лучше меньше. Однако слишком малое количество шагов шумоподавления может ухудшить визуальное качество, приводя к накоплению ошибок. Для оценки стабильности различных вариантов диффузии мы представляем воображаемые траектории, сгенерированные авторегрессионно до t = 1000 временных шагов, на следующем рисунке с использованием различного количества шагов шумоподавления n ≤ 10. 

Мы наблюдаем, что использование DDPM (a) в этом режиме приводит к серьезным ошибкам начисления процентов, что приводит к быстрому выходу модели мира из распределения. Напротив, диффузионная мировая модель, основанная на EDM (b), остается гораздо более стабильной на длительных временных горизонтах даже при одном шаге шумоподавления. Воображаемые траектории с диффузионные модели мира на основе DDPM (слева) и EDM (справа). Начальное наблюдение при t = 0 одинаково для обоих, и каждая строка соответствует уменьшению числа шагов шумоподавления n. Мы наблюдаем, что генерация на основе DDPM страдает от сложных ошибок, при этом меньшее количество шагов шумоподавления приводит к более быстрому накоплению ошибок. Напротив, мировая модель DIAMOND, основанная на EDM, остается гораздо более стабильной даже для n = 1. Оптимальное одношаговое предсказание — это ожидание возможных реконструкций для данного зашумленного входного сигнала, который может оказаться вне распределения, если апостериорное распределение является мультимодальным. . В то время как некоторые игры, такие как Breakout, имеют детерминированные переходы, которые можно точно смоделировать с помощью одного шага шумоподавления, другие игры демонстрируют частичную наблюдаемость, что приводит к мультимодальным распределениям наблюдений. В этих случаях необходим итерационный решатель, который направит процедуру выборки к определенному режиму, как показано в игре Boxing на следующем рисунке. Следовательно, во всех наших экспериментах структура DIAMOND установила n = 3.

На рисунке выше сравнивается одноэтапная (верхний ряд) и многоэтапная (нижний ряд) выборка в боксе. Движения черного игрока непредсказуемы, что приводит к интерполяции одноэтапного шумоподавления между возможными результатами, что приводит к размытым прогнозам. Напротив, многоэтапная выборка создает четкое изображение, направляя генерацию в определенный режим. Интересно, что, поскольку политик контролирует белого игрока, его действия известны модели мира, что исключает двусмысленность. Таким образом, как одношаговая, так и многошаговая выборка правильно предсказывают позицию белого игрока.

На приведенном выше рисунке траектории, представленные DIAMOND, обычно демонстрируют более высокое качество изображения и более точно соответствуют реальной среде по сравнению с траекториями, представленными IRIS. Траектории, сгенерированные IRIS, содержат визуальные несоответствия между кадрами (выделены белыми прямоугольниками), например, враги отображаются в качестве награды и наоборот. Хотя эти несоответствия могут затронуть только несколько пикселей, они могут существенно повлиять на обучение с подкреплением. Например, агент обычно стремится получить вознаграждение и избежать врагов, поэтому эти небольшие визуальные несоответствия могут затруднить изучение оптимальной политики. На рисунке показаны последовательные кадры, представленные с помощью IRIS (слева) и DIAMOND (справа). Белые прямоугольники подчеркивают несоответствия между кадрами, которые проявляются только в траекториях, созданных с помощью IRIS. В Астериксе (верхний ряд) враг (оранжевый) становится наградой (красный) во втором кадре, затем превращается во врага в третьем и снова становится наградой в четвертом. В режиме «Прорыв» (средний ряд) кубики и счет в разных кадрах не совпадают. В Road Runner (нижний ряд) награды (маленькие синие точки на дороге) отображаются между кадрами непоследовательно. Эти несоответствия не возникают с DIAMOND. В режиме «Прорыв» счет достоверно обновляется на +7 при разрушении красного кирпича. 

Заключение

В этой статье мы говорили о DIAMOND, агенте обучения с подкреплением, обученном в рамках диффузионной модели мира. Структура DIAMOND тщательно выбирает дизайн, чтобы гарантировать, что ее модель диффузного мира останется эффективной и стабильной в долгосрочной перспективе. Структура обеспечивает качественный анализ, чтобы продемонстрировать важность этих вариантов дизайна. DIAMOND устанавливает новый уровень развития со средним нормализованным показателем человека 1.46 по хорошо зарекомендовавшему себя тесту Atari 100k, что является самым высоким показателем для агентов, полностью обученных в рамках мировой модели. Работа в пространстве изображений позволяет диффузионной модели мира DIAMOND беспрепятственно заменять окружающую среду, предлагая более глубокое понимание модели мира и поведения агентов. Примечательно, что повышение производительности в некоторых играх связано с лучшим моделированием важных визуальных деталей. Платформа DIAMOND моделирует среду как стандартный POMDP или частично наблюдаемый марковский процесс принятия решений с набором состояний, набором дискретных действий и набором изображений наблюдений. Функции перехода описывают динамику окружающей среды, а функция вознаграждения отображает переходы в скалярные вознаграждения.

«Инженер по профессии, писатель душой». Кунал — технический писатель с глубокой любовью и пониманием ИИ и машинного обучения, стремящийся упростить сложные концепции в этих областях с помощью своей увлекательной и информативной документации.