Штучний Інтелект
Просування ШІ у відповідності з людськими цінностями через WARM

Узгодження систем ШІ з людськими цінностями
Системи штучного інтелекту (AI) стають все більш здатними допомагати людям у складних завданнях, від чат-ботів для обслуговування клієнтів до алгоритмів медичної діагностики. Однак, оскільки ці системи штучного інтелекту беруть на себе більше обов’язків, вкрай важливо, щоб вони залишалися узгодженими з людськими цінностями та вподобаннями. Один із підходів до досягнення цієї мети полягає в застосуванні методики підкріплення навчання за допомогою зворотного зв’язку людини (RLHF). У RLHF система штучного інтелекту, відома як політика, отримує винагороду або покарання на основі людських оцінок її поведінки. Мета полягає в тому, щоб поліс навчився максимізувати свої винагороди і таким чином поводитися відповідно до людських уподобань.
Ключовим компонентом RLHF є модель винагороди (RM). RM відповідає за оцінку дій і результатів політики, а також за повернення сигналу винагороди для скерування процесу навчання. Розробка хорошого RM є складною справою, оскільки людські уподобання можуть бути складними, залежними від контексту та навіть непослідовними між людьми. Нещодавно дослідники з Google DeepMind запропонували інноваційну техніку під назвою Weight Averaged Reward Models (WARM) для покращення дизайну RM.
Проблеми з хакерством винагород
Основною проблемою RLHF є хакерство винагород. Злом винагороди відбувається, коли політика знаходить лазівки в системі RM, щоб отримати високі винагороди, фактично не задовольняючи намічених цілей. Наприклад, припустімо, що мета полягає в тому, щоб навчити ШІ-помічника писати створювати високоякісні резюме. RM може винагородити стислі та інформативні резюме. Потім політика може навчитися використовувати це, генеруючи дуже короткі, неінформативні підсумки, приправлені ключовими словами, які обманюють RM.
Злом винагороди відбувається з двох основних причин:
- Зсув розподілу – RM навчається на обмеженому наборі даних прикладів, позначених людиною. Під час розгортання результати політики можуть надходити з різних дистрибутивів, які RM погано узагальнює.
- Шумні етикетки – Людське маркування є недосконалим, з розбіжностями між оцінювачами. RM може фіксуватися на помилкових сигналах, а не на надійних показниках якості.
Злом винагород призводить до марних систем, які не відповідають людським очікуванням. Що ще гірше, це може призвести до поведінки штучного інтелекту, яка є упередженою або навіть небезпечною, якщо її використовувати необережно.
Розвиток злиття моделей
Зростаючий інтерес до стратегій об’єднання моделей, таких як «Модель Рататуй», зумовлений усвідомленням того, що більші моделі, хоча й потужні, можуть бути неефективними та непрактичними. Навчання моделі з 1 трильйоном параметрів потребує непомірної кількості даних, обчислень, часу та коштів. Більш важливим є те, що такі моделі, як правило, надмірно підходять для розподілу навчання, що перешкоджає їхній здатності узагальнювати різноманітні сценарії реального світу.
Об’єднання моделей надає альтернативний шлях для розблокування більших можливостей без неконтрольованого збільшення. Завдяки повторному використанню кількох спеціалізованих моделей, навчених на різних дистрибутивах, завданнях або цілях, об’єднання моделей має на меті підвищити універсальність і надійність поза розподілом. Передумова полягає в тому, що різні моделі фіксують різні прогнозні шаблони, які можуть доповнювати одна одну при злитті.
Останні результати ілюструють перспективність цієї концепції. Моделі, отримані шляхом злиття, незважаючи на набагато меншу кількість параметрів, можуть зрівнятися або навіть перевершити продуктивність гігантських моделей, таких як GPT-3. Наприклад, ансамбль Model Ratatouille із лише 7 контрольних точок середнього розміру досягає найсучаснішої точності на високорозмірних текстових наборах даних, перевершуючи GPT-3.
Простота об’єднання за допомогою усереднення ваги є величезним бонусом. Навчання кількох допоміжних моделей вимагає додаткових ресурсів. Але найважливіше те, що обчислення часу висновку залишається ідентичним для однієї моделі, оскільки ваги зведені в одну. Це робить метод легко адаптованим, без занепокоєння збільшенням затримки або витрат пам’яті.
Механізми об’єднання моделей
Але що саме дозволяє підвищити точність завдяки об’єднанню моделей? Недавній аналіз дає деякі підказки:
- Пом'якшення запам'ятовування: кожна модель бачить різні перемішані пакети набору даних під час навчання. Усереднення зменшує будь-яке запам’ятовування конкретного екземпляра, зберігаючи лише узагальнення на рівні набору даних.
- Зменшення дисперсії: Моделі, навчені незалежно, мають некорельовані помилки. Їх поєднання усереднює шум, покращуючи калібрування.
- Регулярізація через різноманітність: Різні допоміжні завдання змушують моделі використовувати більш узагальнені функції, корисні для всіх дистрибутивів.
- Підвищення надійності: Непослідовність у прогнозах свідчить про невизначеність. Усереднення пом’якшує викиди суджень, підвищуючи надійність.
По суті, об’єднання моделей врівноважує слабкі сторони окремих моделей, посилюючи їх спільні переваги. Об’єднане представлення охоплює загальні базові причинно-наслідкові структури, ігноруючи випадкові варіації.
Ця концептуальна основа поєднує об’єднання моделі з іншими популярними техніками, як-от об’єднання та багатозадачне навчання. Усі ці методи використовують різноманіття моделей або завдань, щоб отримати універсальні системи з урахуванням невизначеності. Однак простота й ефективність усереднення ваги надає об’єднанню моделей унікальну перевагу для вдосконалення розгортань у реальному світі.
Моделі усередненої винагороди
ТЕРМІН інноваційно використовує проксі-модель винагороди (RM), яка є середньою вагою кількох окремих RM, кожна з яких налаштована з того самого попередньо підготовленого LLM, але з різними гіперпараметрами. Цей метод підвищує ефективність, надійність під час змін дистрибуції та надійність проти суперечливих уподобань. Дослідження також показує, що використання WARM як проксі RM, особливо зі збільшеною кількістю усереднених RM, покращує результати та затримує початок «злому винагороди», явища, коли винагорода за контроль погіршується з часом.
Ось огляд високого рівня:
- Почніть з моделі базової мови, попередньо навченої на великому корпусі. Ініціалізуйте кілька RM, додавши зверху невеликі шари для конкретних завдань.
- Тонко налаштуйте кожен RM окремо на наборі даних уподобань людини, використовуючи різні гіперпараметри, наприклад швидкість навчання для різноманітності.
- Усередніть вагу тонко налаштованих RM, щоб отримати один ансамбль WARM.
Ключове розуміння полягає в тому, що усереднення ваги зберігає лише інваріантну інформацію, отриману в усіх різноманітних RM. Це зменшує залежність від помилкових сигналів, підвищуючи надійність. Ансамбль також виграє від зменшення дисперсії, покращуючи надійність, незважаючи на зміни розподілу.
Як обговорювалося раніше, різноманітність незалежно навчених моделей має вирішальне значення для розкриття повного потенціалу злиття моделей. Але які існують конкретні методи сприяння продуктивному різноманіттю?
Стаття WARM досліджує кілька розумних ідей, які можна узагальнити ширше:
Замовлення тасувань
Тривіальний, але ефективний підхід полягає в зміні порядку, у якому точки даних бачать кожна модель під час навчання. Навіть цей простий крок декорелює ваги, зменшуючи зайве запам’ятовування шаблонів.
Варіації гіперпараметрів
Налаштування гіперпараметрів, таких як швидкість навчання та ймовірність вибуття для кожного запуску, вносить корисну різноманітність. Моделі збігаються по-різному, фіксуючи різні властивості набору даних.
Усереднення контрольної точки – пахлава
Метод Baklava ініціалізує моделі для злиття з різних знімків уздовж тієї самої траєкторії попереднього навчання. Це зменшує обмеження порівняно з типовими супами, які вимагають спільної початкової точки. Порівняно з модельним рататуєм, пахлава уникає додаткових завдань. Загалом, це забезпечує ефективний баланс точності та різноманітності.

Процес починається з попередньо підготовленої великої мовної моделі (LLM) 𝜃_𝑝𝑡. З цієї моделі різні контрольні точки {𝜃_𝑠 𝑓 𝑡_𝑖} виводяться під час виконання контрольованого тонкого налаштування (SFT), кожна зібрана на різних етапах навчання SFT. Потім ці контрольні точки використовуються як ініціалізація для точного налаштування кількох моделей винагороди (RM) {𝜙𝑖} на наборі даних про переваги. Це тонке налаштування має на меті адаптувати моделі для кращого узгодження з уподобаннями людини. Після точного налаштування ці RM об’єднуються за допомогою процесу усереднення ваги, у результаті чого виходить остаточна модель 𝜙_WARM.
Аналіз підтверджує, що додавання старіших контрольних точок шляхом переміщення середнього шкодить індивідуальній продуктивності, компрометуючи переваги різноманітності. Усереднення лише остаточних представлень з кожного циклу ефективніше. Загалом, баланс між цілями різноманітності та підтриманням точності залишається відкритим дослідницьким завданням.
Загалом, об’єднання моделей добре узгоджується із загальним духом у цій галузі, щоб ефективно переробляти наявні ресурси для підвищення надійності, ефективності та універсальності. Простота усереднення ваги зміцнює його позицію як провідного кандидата для збирання міцних моделей із готових будівельних блоків.
На відміну від традиційних методів ансамблювання, які усереднюють прогнози, WARM мінімізує витрати на обчислення, зберігаючи лише один набір ваг. Ефективність WARM демонструють експерименти над завданнями на конспектування тексту:
- Для вибірки найкращого з N WARM досягає 92.5% виграшу проти випадкового вибору відповідно до міток уподобань людини.
- У RLHF політика WARM досягає 79.4% виграшу порівняно з політикою, навченою з одним RM, після такої ж кількості кроків.
- WARM продовжує працювати добре, навіть якщо чверть людських міток пошкоджено.
Ці результати ілюструють потенціал WARM як практичного методу для розробки реальних помічників ШІ, які поводяться надійно. Згладжуючи невідповідності у відгуках людей, політики WARM можуть залишатися надійно узгодженими з людськими цінностями, навіть якщо вони продовжують вивчати новий досвід.
Bigger Picture
WARM знаходиться на перетині двох ключових тенденцій у дослідженні вирівнювання ШІ. По-перше, це дослідження узагальнення поза розповсюдженням (OOD), яке має на меті покращити продуктивність моделі на нових даних, які відрізняються від навчального розподілу. По-друге, це дослідження надійності алгоритмів, зосереджуючись на надійності, незважаючи на невеликі збурення вхідного сигналу або шум.
Встановлюючи зв’язки між цими полями навколо поняття вивченої інваріантності, WARM рухає нас до більш ретельно обґрунтованих методів вирівнювання цінностей. Ідеї від WARM можна узагальнити навіть за межами RLHF, надаючи уроки для ширших систем машинного навчання, які взаємодіють із відкритим світом.
Звичайно, моделювання винагороди – це лише одна частина головоломки вирівнювання. Нам все ще потрібен прогрес у інших завданнях, як-от визначення винагороди, масштабований нагляд і безпечне дослідження. У поєднанні з додатковими методами WARM може прискорити розробку штучного інтелекту, який стійко сприяє процвітанню людей. Колективно з’ясовуючи принципи, які лежать в основі надійного узгодження, дослідники прокладають шлях до корисного, етичного ШІ.