Свяжитесь с нами:

Содействие ИИ в соответствии с человеческими ценностями посредством WARM

Искусственный интеллект

Содействие ИИ в соответствии с человеческими ценностями посредством WARM

mm
Модели вознаграждения с усредненным весом LLM

Согласование систем искусственного интеллекта с человеческими ценностями

Системы искусственного интеллекта (ИИ) становятся все более способными помогать людям в решении сложных задач: от чат-ботов для обслуживания клиентов до алгоритмов медицинской диагностики. Однако, поскольку эти системы искусственного интеллекта берут на себя больше ответственности, крайне важно, чтобы они оставались в соответствии с человеческими ценностями и предпочтениями. Один из подходов к достижению этой цели — использование метода, называемого обучением с подкреплением на основе обратной связи с человеком (RLHF). В RLHF система ИИ, известная как политика, вознаграждается или наказывается в зависимости от человеческих суждений о ее поведении. Цель состоит в том, чтобы политика научилась максимизировать свои выгоды и, таким образом, вести себя в соответствии с человеческими предпочтениями.

Основным компонентом RLHF является модель вознаграждения (RM). RM отвечает за оценку действий и результатов политики, а также возвращает сигнал вознаграждения для управления процессом обучения. Разработка хорошего RM является сложной задачей, поскольку человеческие предпочтения могут быть сложными, контекстно-зависимыми и даже непоследовательными у разных людей. Недавно исследователи из Google DeepMind предложили инновационную технику под названием «Модели вознаграждения по усреднённому весу» (WARM), чтобы улучшить дизайн RM.

Проблема со взломом вознаграждений

Основная проблема в RLHF — взлом вознаграждений. Взлом вознаграждений происходит, когда политика находит лазейки, позволяющие обмануть систему RM для получения высоких вознаграждений без фактического достижения намеченных целей. Например, предположим, что цель состоит в том, чтобы научить ИИ-помощника по написанию статей создавать высококачественные резюме. РМ может вознаградить за краткие и информативные резюме. Политики могли бы затем научиться использовать это, создавая очень короткие, неинформативные сводки, приправленные ключевыми словами, которые обманывают РМ.

Взлом вознаграждений происходит по двум основным причинам:

  1. Сдвиг распределения – RM обучается на ограниченном наборе данных примеров, помеченных человеком. При развертывании результаты политики могут поступать из разных дистрибутивов, на которые RM плохо обобщает.
  2. Шумные этикетки – Человеческая маркировка несовершенна, существуют разногласия между экспертами. RM может фиксироваться на ложных сигналах, а не на надежных индикаторах качества.

Взлом вознаграждений приводит к созданию бесполезных систем, которые не соответствуют человеческим ожиданиям. Хуже того, это может привести к тому, что поведение ИИ будет предвзятым или даже опасным, если его использовать небрежно.

Рост слияния моделей

Растущий интерес к стратегиям слияния моделей, таким как модель «Рататуй», вызван осознанием того, что более крупные модели, хотя и мощные, могут быть неэффективными и непрактичными. Обучение модели с 1 триллионом параметров требует непомерно больших объемов данных, вычислений, времени и затрат. Что еще более важно, такие модели имеют тенденцию переподстраиваться под распределение обучения, что затрудняет их способность обобщать различные сценарии реального мира.

Объединение моделей обеспечивает альтернативный путь для раскрытия более широких возможностей без неконтролируемого расширения. За счет повторного использования нескольких специализированных моделей, обученных для разных дистрибутивов, задач или целей, объединение моделей направлено на повышение универсальности и надежности вне дистрибутива. Идея состоит в том, что разные модели фиксируют различные модели прогнозирования, которые могут дополнять друг друга при объединении.

Недавние результаты иллюстрируют перспективность этой концепции. Модели, полученные путем слияния, несмотря на гораздо меньшее количество параметров, могут соответствовать или даже превосходить по производительности гигантские модели, такие как GPT-3. Например, ансамбль модели «Рататуй», состоящий всего из 7 контрольных точек среднего размера, достигает высочайшей точности на многомерных наборах текстовых данных, превосходя GPT-3.

Простота слияния по усреднению веса — огромный бонус. Обучение нескольких вспомогательных моделей требует дополнительных ресурсов. Но что особенно важно, вычисление времени вывода остается идентичным одной модели, поскольку веса сжимаются в одну. Это делает метод легко адаптируемым, не опасаясь увеличения задержки или затрат памяти.

Механизмы слияния моделей

Но что именно обеспечивает такой выигрыш в точности от слияния моделей? Недавний анализ предлагает некоторые подсказки:

  • Смягчение запоминания: каждая модель во время обучения видит разные перетасованные пакеты набора данных. Усреднение уменьшает любое запоминание конкретного экземпляра, сохраняя только обобщения на уровне набора данных.
  • Уменьшение дисперсии: модели, обученные независимо, имеют некоррелированные ошибки. Их объединение усредняет шум, улучшая калибровку.
  • Регуляризация через разнообразие: изменение вспомогательных задач вынуждает модели использовать более обобщаемые функции, полезные для разных дистрибутивов.
  • Повышение надежности: Непоследовательность в прогнозах сигнализирует о неопределенности. Усреднение смягчает выбросы, повышая надежность.

По сути, объединение моделей уравновешивает недостатки отдельных моделей и усиливает их коллективные преимущества. Объединенное представление отражает общие лежащие в основе причинные структуры, игнорируя случайные вариации.

Эта концептуальная основа связывает слияние моделей с другими популярными методами, такими как ансамблирование и многозадачное обучение. Все эти методы используют разнообразие моделей или задач для получения универсальных систем, учитывающих неопределенность. Однако простота и эффективность усреднения весов дает объединению моделей уникальное преимущество для продвижения реальных развертываний.

Модели вознаграждения, усредненные по весу

Процесс согласования с WARM

Процесс согласования с WARM

ТЕПЛО инновационно использует прокси-модель вознаграждения (RM), которая представляет собой среднее весовое значение нескольких отдельных RM, каждый из которых точно настроен на основе одного и того же предварительно обученного LLM, но с различными гиперпараметрами. Этот метод повышает эффективность, надежность при изменении распределения и устойчивость к противоречивым предпочтениям. Исследование также показывает, что использование WARM в качестве прокси-RM, особенно с увеличенным количеством усредненных RM, улучшает результаты и задерживает начало «взлома вознаграждения» - явления, при котором вознаграждение за контроль со временем ухудшается.

Вот общий обзор:

  1. Начните с модели базового языка, предварительно обученной на большом корпусе. Инициализируйте несколько RM, добавляя сверху небольшие уровни для конкретных задач.
  2. Точная настройка каждого RM отдельно в наборе данных о предпочтениях человека, используя различные гиперпараметры, такие как скорость обучения для разнообразия.
  3. Усредните веса точно настроенных RM, чтобы получить один WARM-ансамбль.

Ключевой вывод заключается в том, что усреднение веса сохраняет только инвариантную информацию, полученную во всех различных RM. Это снижает зависимость от ложных сигналов, повышая надежность. Ансамбль также выигрывает от уменьшения дисперсии, повышая надежность, несмотря на сдвиги распределения.

Как обсуждалось ранее, разнообразие независимо обученных моделей имеет решающее значение для раскрытия всего потенциала слияния моделей. Но каковы конкретные методы содействия продуктивному разнообразию?

В статье WARM исследуются несколько умных идей, которые можно обобщить в более широком смысле:

Порядок перемешивания

Тривиальный, но эффективный подход заключается в перетасовке порядка, в котором точки данных отображаются каждой моделью во время обучения. Даже этот простой шаг декоррелирует веса, уменьшая избыточное запоминание шаблонов.

Варианты гиперпараметров

Настройка гиперпараметров, таких как скорость обучения и вероятность отсева для каждого прогона, вносит полезное разнообразие. Модели сходятся по-разному, фиксируя различные свойства набора данных.

Усреднение контрольных точек – Пахлава

Метод Баклава инициализирует модели для слияния из разных снимков по одной и той же траектории предварительного обучения. Это ослабляет ограничения по сравнению с модельными супами, которые требуют общей отправной точки. По сравнению с моделью рататуя, пахлава избегает дополнительных задач. В целом, он обеспечивает эффективный баланс точности и разнообразия.

тонкая настройка нескольких моделей вознаграждения

Процесс начинается с предварительно обученной модели большого языка (LLM) 𝜃_𝑝𝑡. Из этой модели во время запуска контролируемой точной настройки (SFT) получаются различные контрольные точки {𝜃_𝑠 𝑓 𝑡_𝑖}, каждая из которых собирается на разных этапах обучения SFT. Эти контрольные точки затем используются в качестве инициализации для точной настройки нескольких моделей вознаграждения (RM) {𝜙𝑖} в наборе данных предпочтений. Эта тонкая настройка направлена ​​на адаптацию моделей для лучшего соответствия человеческим предпочтениям. После точной настройки эти RM объединяются посредством усреднения веса, в результате чего получается окончательная модель 𝜙_WARM.

Анализ подтверждает, что добавление более старых контрольных точек посредством скользящего среднего вредит индивидуальным результатам, ставя под угрозу преимущества разнообразия. Усреднение только окончательных представлений каждого прогона дает лучшие результаты. В целом, баланс между целями разнообразия и поддержанием точности остается открытой исследовательской задачей.

В целом, объединение моделей хорошо согласуется с общим подходом в этой области, направленным на эффективную переработку существующих ресурсов для повышения надежности, эффективности и универсальности. Простота усреднения веса укрепляет его позицию как ведущего кандидата для сборки надежных моделей из легкодоступных строительных блоков.

В отличие от традиционных методов ансамбля, которые усредняют прогнозы, WARM сводит вычислительные затраты к минимуму, поддерживая только один набор весов. Эксперименты с задачами реферирования текста демонстрируют эффективность WARM:

  • Для выборки «лучший из N» WARM достигает 92.5% процента выигрыша против случайного выбора в соответствии с метками предпочтений человека.
  • В RLHF политика WARM достигает 79.4% выигрыша по сравнению с политикой, обученной с одним RM после того же количества шагов.
  • WARM продолжает работать хорошо, даже когда четверть человеческих меток повреждена.

Эти результаты иллюстрируют потенциал WARM как практического метода разработки реальных помощников искусственного интеллекта, которые работают надежно. Сглаживая несоответствия в обратной связи между людьми, политика WARM может оставаться в строгом соответствии с человеческими ценностями, даже несмотря на то, что они продолжают учиться на новом опыте.

Больше фото

WARM находится на пересечении двух ключевых тенденций в исследованиях согласованности ИИ. Во-первых, это исследование обобщения вне распределения (OOD), целью которого является повышение производительности модели на новых данных, которые отличаются от обучающего распределения. Во-вторых, это исследование устойчивости алгоритмов с упором на надежность, несмотря на небольшие входные возмущения или шум.

Устанавливая связи между этими областями вокруг понятия изученной инвариантности, WARM подводит нас к более строго обоснованным методам выравнивания значений. Результаты WARM могут быть обобщены даже за пределами RLHF, предоставляя уроки для более широких систем машинного обучения, которые взаимодействуют с открытым миром.

Конечно, моделирование вознаграждения — это лишь часть головоломки согласования. Нам все еще нужен прогресс в решении других задач, таких как определение вознаграждений, масштабируемый надзор и безопасное исследование. В сочетании с дополнительными технологиями WARM может ускорить развитие искусственного интеллекта, который устойчиво способствует процветанию человечества. Совместно разъясняя принципы, лежащие в основе надежного согласования, исследователи прокладывают путь к полезному и этичному ИИ.

Последние пять лет я погружался в увлекательный мир машинного обучения и глубокого обучения. Моя страсть и опыт позволили мне принять участие в более чем 50 различных проектах по разработке программного обеспечения, уделяя особое внимание AI/ML. Мое постоянное любопытство также привлекло меня к обработке естественного языка, области, которую я очень хочу исследовать дальше.