Моделі та платформи ШІ
DIAMOND: Візуальні деталі мають значення в Atari та дифузії для моделювання світу
У 2018 році було вперше введено ідею навчання з підкріпленням у контексті нейронної мережі моделі світу, і незабаром ця фундаментальна принцип була застосована до моделей світу. Деякі з відомих моделей, які реалізують навчання з підкріпленням, були фреймворком Dreamer, який ввів навчання з підкріпленням з латентного простору рекурентної моделі стану. DreamerV2 продемонстрував, що використання дискретних латентних змінних може привести до зменшення похибок, а фреймворк DreamerV3 був能够 досягти людоподібної продуктивності на серії завдань у різних доменах з фіксованими гіперпараметрами.
Крім того, можна провести паралелі між моделями генерації зображень і моделями світу, що свідчить про те, що прогрес, досягнутий у моделях генерації зображень, можна повторити для моделей світу. З тих пір, як використання трансформерів у фреймворках обробки природної мови набуло популярності, з’явилися фреймворки DALL-E і VQGAN. Ці фреймворки реалізували дискретні автоенкодери для перетворення зображень у дискретні токени і були能够 побудувати дуже потужні і ефективні моделі генерації тексту до зображення, використовуючи можливості послідовної моделі автoregresивних трансформерів. У той же час моделі дифузії набули популярності, і сьогодні моделі дифузії встановили себе як домінуючу парадигму для генерації високоякісних зображень. Завдяки можливостям, які надають моделі дифузії і навчання з підкріпленням, проводяться спроби поєднати ці два підходи, з метою використання гнучкості моделей дифузії як траєкторних моделей, моделей нагород, планувальників і як політики для даних для офлайн-навчання з підкріпленням.
Моделі світу пропонують перспективний метод для навчання агентів навчання з підкріпленням безпечно і ефективно. Традиційно ці моделі використовують послідовності дискретних латентних змінних для симуляції динаміки середовища. Однак цей компрес може ігнорувати візуальні деталі, важливі для навчання з підкріпленням. У той же час моделі дифузії набули популярності для генерації зображень, що викликає традиційні методи, які використовують дискретні латентні змінні. Під впливом цього зрушення, у цій статті ми поговоримо про DIAMOND (DIffusion As a Model Of eNvironment Dreams), агент навчання з підкріпленням, навчений у моделі світу дифузії. Ми дослідимо необхідні проектні рішення для того, щоб зробити дифузію підходящою для моделювання світу і покажемо, що покращені візуальні деталі призводять до кращої продуктивності агента. DIAMOND встановлює новий рекорд на конкурентному тесті Atari 100k, досягнувши середнього людського нормалізованого балу 1,46, найвищого для агентів, навчених повністю у моделі світу.
DIAMOND: DIffusion As a Model Of eNvironment Dreams
Моделі світу або генеративні моделі середовища виникають як одна з важливих складових для генерації агентів для планування і розуміння їхнього середовища. Хоча використання навчання з підкріпленням досягло значного успіху в останні роки, моделі, які реалізують навчання з підкріпленням, відомі тим, що вони неефективні з точки зору вибірки, що суттєво обмежує їхнє застосування у реальному світі. З іншого боку, моделі світу продемонстрували свою здатність ефективно навчати агентів навчання з підкріпленням у різних середовищах з суттєво покращеною ефективністю вибірки, що дозволяє моделі навчатися з реального досвіду. Останні фреймворки моделювання світу зазвичай моделюють динаміку середовища як послідовність дискретних латентних змінних, з моделлю, яка дискретизує латентний простір, щоб уникнути похибок у багаторазових часових горизонтах. Хоча цей підхід може привести до суттєвих результатів, він також пов’язаний з втратою інформації, що призводить до втрати якості реконструкції і втрати загальності. Втрата інформації може стати суттєвою перешкодою для реальних сценаріїв, які вимагають добре визначеної інформації, наприклад, навчання автономних транспортних засобів. У таких завданнях маленькі зміни або деталі у візуальному вході, наприклад, колір світлофора або поворотний індикатор транспортного засобу попереду, можуть змінити політику агента. Хоча збільшення кількості дискретних латентних змінних може допомогти уникнути втрати інформації, це суттєво збільшує обчислювальні витрати.
Крім того, у останні роки моделі дифузії виникли як домінуючий підхід для генерації високоякісних зображень, оскільки фреймворки, побудовані на моделях дифузії, вчаться перевертати процес шумування, і безпосередньо конкурують з деякими з більш встановлених підходів, які моделюють дискретні токени, і тому пропонують перспективну альтернативу для ліквідації необхідності дискретизації у моделюванні світу. Моделі дифузії відомі своєю здатністю легко умовлюватися і гнучко моделювати складні, багатомодальні розподіли без колапсу режиму. Ці атрибути є важливими для моделювання світу, оскільки умовлювання дозволяє моделі світу точно відображати дії агента, що призводить до більш надійної атрибуції кредитів. Крім того, моделювання багатомодальних розподілів пропонує більшу різноманітність тренувальних сценаріїв для агента, покращуючи його загальну продуктивність.
Будуючи на цих характеристиках, DIAMOND (DIffusion As a Model Of eNvironment Dreams) – це агент навчання з підкріпленням, навчений у моделі світу дифузії. Фреймворк DIAMOND робить ретельні проектні рішення, щоб забезпечити, щоб його модель світу дифузії залишається ефективною і стабільною у довгостроковій перспективі. Фреймворк пропонує якісний аналіз для демонстрації важливості цих проектних рішень. DIAMOND встановлює новий рекорд з середнім людським нормалізованим балом 1,46 на добре встановленому бенчмарку Atari 100k, найвищому для агентів, навчених повністю у моделі світу. Робота у просторі зображень дозволяє моделі світу DIAMOND безшовно заміняти середовище, пропонуючи більші знання про поведінку моделі світу і агента. Відзначимо, що покращена продуктивність у певних іграх пояснюється кращим моделюванням критичних візуальних деталей. Фреймворк DIAMOND моделює середовище як стандартний POMDP або частково спостережуваний Марковський процес прийняття рішень з набором станів, набором дискретних дій і набором спостережень зображень. Функції переходів описують динаміку середовища, а функція нагороди відображає переходи у скалярні нагороди.
DIAMOND: Методологія і архітектура
У своєму ядрі моделі дифузії є класом генеративних моделей, які генерують зразок, перевертаючи процес шумування, і черпають натхнення з термодинаміки нерозрізнення. Фреймворк DIAMOND розглядає процес дифузії, індексований безперервною часовою змінною з відповідними маржами і граничними умовами з тривіальною неструктурованою апріорною розподією. Крім того, для отримання генеративної моделі, яка відображає шум до даних, фреймворк DIAMOND повинен перевертати процес, з процесом перевертання, який також є процесом дифузії, що працює у зворотному напрямку часу. Крім того, у будь-якій даній точці часу не є тривіальним оцінити функцію балів, оскільки фреймворк DIAMOND не має доступу до справжньої функції балів, і модель подолає цю перешкоду, реалізуючи цілю щабельну функцію, підхід, який дозволяє фреймворку навчати модель балів без знання підлягаючої функції балів. Модель дифузії на основі балів пропонує безумовну генеративну модель. Однак умовна генеративна модель динаміки середовища необхідна для служіння у якості моделі світу, і для цієї мети фреймворк DIAMOND розглядає загальний випадок підходу POMDP, у якому фреймворк може використовувати минулі спостереження і дії для апроксимації невідомого марковського стану. Як демонструється на Фігурі 1, фреймворк DIAMOND використовує цю історію для умовлювання моделі дифузії, щоб оцінити і сгенерувати наступне спостереження безпосередньо. Хоча фреймворк DIAMOND може використовувати будь-який розв’язувач СДР або ОДР у теорії, існує компроміс між числом функціональних оцінок і якістю зразка, що суттєво впливає на вартість висновку моделей дифузії.
Будуючи на цих знаннях, давайте тепер розглянемо практичну реалізацію фреймворку DIAMOND дифузійної моделі світу, включаючи коефіцієнти дрейфу і дифузії, відповідні певному вибору підходу дифузії. Замість вибору DDPM, природньо підходящого кандидата для завдання, фреймворк DIAMOND будується на формулюванні EDM і розглядає ядро збурень з дійсноцінною функцією часу дифузії, названою графіком шуму. Фреймворк вибирає передумовники для збереження вхідної і вихідної дисперсії для будь-якого рівня голосу. Навчання мережі змішує сигнал і шум адаптивно залежно від рівня деградації, і коли шум низький, і ціль стає різницею між чистим і збуреним сигналом, тобто доданим гаусовським шумом. Інтуїтивно це запобігає тому, щоб навчальна ціль стала тривіальною у режимі низького шуму. На практиці ця ціль має високу дисперсію на краях графіка шуму, тому модель вибірково вибірково вибирає рівень шуму з логарифмічного нормального розподілу, вибраного емпірично, щоб сконкатенувати навчання навколо середніх регіонів шуму. Фреймворк DIAMOND використовує стандартний компонент U-Net 2D для векторного поля, і зберігає буфер минулих спостережень і дій, які фреймворк використовує для умовлювання. Фреймворк DIAMOND потім конкатенує ці минулі спостереження до наступного шумового спостереження, і вхідні дії через адаптивні групи нормалізації у залишкових блоках U-Net.
DIAMOND: Експерименти і результати
Для всебічної оцінки фреймворк DIAMOND вибрав бенчмарк Atari 100k. Бенчмарк Atari 100k складається з 26 ігор, розроблених для тестування широкого спектра можливостей агента. У кожній грі агент обмежений 100k діями у середовищі, що приблизно еквівалентно 2 годинам гри людини, щоб вивчити гру перед оцінкою. Для порівняння, необмежені агенти Atari зазвичай навчаються протягом 50 мільйонів кроків, що представляє собою 500-разове збільшення досвіду. Ми навчали DIAMOND з нуля, використовуючи 5 випадкових насінників для кожної гри. Кожен навчальний запуск вимагав близько 12 ГБ відеопам’яті і займав приблизно 2,9 доби на одному процесорі Nvidia RTX 4090, що склало 1,03 року GPU усього. Наступна таблиця пропонує бал для всіх ігор, середнє значення і міжквартильне середнє значення людських нормалізованих балів.
Після обмежень точкових оцінок фреймворк DIAMOND пропонує стратифіковану довірчу інтервал у середньому і міжквартильному середньому людських нормалізованих балів разом з профілями продуктивності і додатковими метриками, як підсумовано у наступній фігурі.
Результати показують, що DIAMOND виконує себе винятково добре по всьому бенчмарку, перевершуючи людських гравців у 11 іграх і досягнувши надлюдського середнього значення HNS 1,46, встановивши новий рекорд для агентів, навчених повністю у моделі світу. Крім того, DIAMOND має міжквартильне середнє значення, порівнянне з STORM, і перевершує всі інші базові лінії. DIAMOND виділяється у середовищах, де захоплення малих деталей є важливим, таких як Asterix, Breakout і RoadRunner. Крім того, як обговорювалося раніше, фреймворк DIAMOND має гнучкість реалізації будь-якої моделі дифузії у своєму конвеєрі, хоча він вибрав підхід EDM, це було б природним вибором вибрати модель DDPM, оскільки вона вже реалізується у багатьох додатках генерації зображень. Для порівняння підходу EDM з реалізацією DDPM фреймворк DIAMOND навчає обидва варіанти з тією ж архітектурою мережі на тому ж статичному наборі даних з понад 100k кадрів, зібраних з експертною політикою. Кількість кроків денойзингу безпосередньо пов’язана з витратами висновку моделі світу, і тому менше кроків зменшить вартість навчання агента на уявлених траєкторіях. Для забезпечення того, щоб наша модель світу залишилася обчислювально порівнянною з іншими базовими лініями, такими як IRIS, яка вимагає 16 NFE на крок, ми ставимо за мету використовувати не більше десятків кроків денойзингу, бажано менше. Однак встановлення кількості кроків денойзингу занадто низько може погіршити візуальну якість, що призведе до похибок. Для оцінки стабільності різних варіантів дифузії ми демонструємо уявлені траєкторії, згенеровані автoregresивно до t = 1000 кроків у наступній фігурі, використовуючи різні кількості кроків денойзингу n ≤ 10.
Ми спостерігаємо, що використання DDPM (а) у цьому режимі призводить до сильних похибок, що призводить до того, що модель світу швидко виходить з розподілу. Натомість модель світу дифузії на основі EDM (б) залишається значно більш стабільною у довгостроковій перспективі, навіть з одним кроком денойзингу. Уявлені траєкторії з моделями дифузії на основі DDPM (ліворуч) і EDM (праворуч) показані. Початкове спостереження у t = 0 є тим же для обох, і кожен рядок відповідає зменшенню кількості кроків денойзингу n. Ми спостерігаємо, що генерація на основі DDPM страждає від похибок, з меншою кількістю кроків денойзингу, що призводить до швидшого накопичення похибок. Натомість модель світу DIAMOND на основі EDM залишається значно більш стабільною, навіть для n = 1. Оптимальна однокрокова передбачення є очікуванням можливих реконструкцій для даного шумового входу, яке може бути поза розподілом, якщо апостеріорний розподіл є багатомодальним. Хоча деякі ігри, такі як Breakout, мають детермінативні переходи, які можна точно змоделювати з одним кроком денойзингу, інші ігри демонструють часткову спостережуваність, що призводить до багатомодальних розподілів спостережень. У цих випадках ітеративний розв’язувач необхідний для керування процедурою вибірки у бік певного режиму, як ілюструється у грі Boxing у наступній фігурі. Тому фреймворк DIAMOND встановлює n = 3 у всіх наших експериментах.
Вищезгадана фігура порівнює однокрокове (верхній ряд) і багатокрокове (нижній ряд) зразкування у Boxing. Рухи чорного гравця є непередбачуваними, що призводить до того, що однокрокове денойзингове зразкування інтерполює між можливими результатами, що призводить до розмитих передбачень. Натомість багатокрокове зразкування генерує чітке зображення, керуючи генерацією у бік певного режиму. Цікаво, що оскільки політика контролює білу гравця, його дії відомі моделі світу, що усуває двозначність. Тому і однокрокове, і багатокрокове зразкування правильно передбачають позицію білого гравця.
У вищезгаданій фігурі траєкторії, уявлені DIAMOND, загалом демонструють вищу візуальну якість і є більш вірними справжньому середовищу порівняно з тими, які уявляються IRIS. Траєкторії, згенеровані IRIS, містять візуальні несумісності між кадрами (виділені білими коробками), такі як вороги, які відображаються як нагороди і навпаки. Хоча ці несумісності можуть вплинути лише на кілька пікселів, вони можуть суттєво вплинути на навчання з підкріпленням. Наприклад, агент зазвичай намагається націлитися на нагороди і уникнути ворогів, тому ці маленькі візуальні розбіжності можуть зробити навчання оптимальної політики більш складним. Фігура показує послідовні кадри, уявлені IRIS (ліворуч) і DIAMOND (праворуч). Білі коробки виділяють несумісності між кадрами, які з’являються лише у траєкторіях, згенерованих IRIS. У Asterix (верхній ряд) ворог (помаранчевий) стає нагородою (червоним) у другому кадрі, потім повертається до ворога у третьому, і знову до нагороди у четвертому. У Breakout (середній ряд) кирпичі і рахунок є несумісними між кадрами. У Road Runner (нижній ряд) нагороди (малі сині точки на дорозі) є несумісними між кадрами. Ці несумісності не з’являються у DIAMOND. У Breakout рахунок надійно оновлюється на +7, коли червоний кирпич зруйновано.
Висновок
У цій статті ми говорили про DIAMOND, агент навчання з підкріпленням, навчений у моделі світу дифузії. Фреймворк DIAMOND робить ретельні проектні рішення, щоб забезпечити, щоб його модель світу дифузії залишається ефективною і стабільною у довгостроковій перспективі. Фреймворк пропонує якісний аналіз для демонстрації важливості цих проектних рішень. DIAMOND встановлює новий рекорд з середнім людським нормалізованим балом 1,46 на добре встановленому бенчмарку Atari 100k, найвищому для агентів, навчених повністю у моделі світу. Робота у просторі зображень дозволяє моделі світу DIAMOND безшовно заміняти середовище, пропонуючи більші знання про поведінку моделі світу і агента. Відзначимо, що покращена продуктивність у певних іграх пояснюється кращим моделюванням критичних візуальних деталей. Фреймворк DIAMOND моделює середовище як стандартний POMDP або частково спостережуваний Марковський процес прийняття рішень з набором станів, набором дискретних дій і набором спостережень зображень. Функції переходів описують динаміку середовища, а функція нагороди відображає переходи у скалярні нагороди. Функція спостереження описує ймовірності спостереження і видає зображення, які потім використовуються агентами для спостереження за середовищем, оскільки вони не можуть безпосередньо доступитися до станів. Основною метою підходу було отримати політику, яка відображає спостереження у дії з метою максимізації очікуваного дисконтованого повернення з дисконтним коефіцієнтом. Моделі світу є генеративними моделями середовища, і вони можуть бути використані для створення симульованих середовищ для навчання агентів навчання з підкріпленням у реальному середовищі, і навчання агентів навчання з підкріпленням у моделі світу. Фігура 1 демонструє розгортання уявлення фреймворку DIAMOND у часі.












