Искусственный интеллект

Рефлексия 70B: LLM с самокорректирующимся познанием и лидирующей производительностью

опубликованный 11 сентября, 2024

Аюш Миттал Mittal

Reflection 70B, большие языковые модели, самокоррекция ИИ, Reflection-Tuning, ИИ с открытым исходным кодом, HyperWrite

Отражение 70Б есть модель большого языка с открытым исходным кодом (LLM), разработанная ГиперзаписьЭта новая модель представляет подход к познанию ИИ, который может изменить то, как мы взаимодействуем с системами ИИ и полагаемся на них во многих областях: от обработки языка до продвинутого решения проблем.

Использование Отражение-Настройка, новаторская технология, которая позволяет модели самостоятельно оценивать и исправлять свои ошибки в режиме реального времени, Reflection 70B быстро вышла на вершину, превзойдя такие фирменные модели, как GPT-4 и Клод 3.5 Сонет по нескольким показателям, включая ММЛУ, МАТЕМАТИКА и HumanEval.

Reflection 70B создан на основе прочной Лама 3.1-70Б архитектура, но ее самоочищающийся механизм выделяет ее. Благодаря итеративным циклам рефлексии, обнаружения ошибок и уточнения выходных данных модель имитирует человеческое познание беспрецедентным образом, расширяя границы того, чего может достичь ИИ. В результате Reflection 70B предлагает не только непревзойденную точность, но и более глубокое понимание своего процесса принятия решений, что является критической функцией для приложений, где прозрачность и точность имеют первостепенное значение.

Что такое Reflection 70B

По своей сути Reflection 70B построен на Meta с открытым исходным кодом Лама 3.1-70Б Инструктировать модель. Однако то, что действительно отличает его от других, — это его уникальная способность участвовать в процессе, похожем на человеческое размышление, — отсюда и его название. Эта способность вытекает из техники, называемой «Отражение-Настройка», что позволяет модели выявлять и исправлять собственные ошибки в режиме реального времени, тем самым повышая ее точность и надежность.

Мэтт Шумер, генеральный директор HyperWrite, представил Reflection 70B, сделав смелое заявление о том, что это «ведущая в мире модель ИИ с открытым исходным кодом.«Но что именно делает эту модель такой особенной и как она соотносится с такими гигантами отрасли, как GPT-4 и Клод 3.5 Сонет? Давайте изучим.

Понимание селективной настройки отражения: смена парадигмы в обучении ИИ

Выборочный запуск Отражение-Настройка представляет подход к инструкция по настройке, где цель состоит в том, чтобы улучшить как качество данных инструкций и его совместимость с студенческая модель быть тонкой настройкой. Традиционные методы часто фокусируются на улучшении самих данных, но упускают из виду, насколько хорошо улучшенные пары данных соответствуют целям обучения модели. Выборочная настройка отражения устраняет этот разрыв, способствуя сотрудничество учителя и ученика, где модель учителя анализирует данные и предоставляет уточненные пары «инструкция-ответ», в то время как студенческая модель оценивает и выбирает только те улучшения, которые наилучшим образом соответствуют его потребностям в обучении.

Процесс состоит из двух основных этапов:

Выборочное обучение Рефлексия: Модель учителя размышляет над инструкцией данного образца и генерирует уточненную пару инструкция-ответ. Затем модель ученика оценивает, полезна ли эта новая инструкция на основе метрики, называемой Инструкция по уровню сложности (ИФД). Оценка IFD оценивает сложность выборки для модели студента, гарантируя, что будут сохранены только те данные, которые соответствующим образом бросают вызов модели.
Избирательное отражение реакции: На этом этапе модель учителя размышляет над ответами, полученными на первом этапе. Модель ученика оценивает эти ответы с помощью Обратное указание по степени сложности (r-IFD), метрика, которая измеряет, насколько осуществимо для студента вывести инструкцию на основе ответа. Это гарантирует, что ответ не только улучшает рассуждения модели, но и хорошо согласуется с существующими знаниями студента.

Применяя оба IFD и р-ИФД, селективная настройка отражения создает пары данных, которые являются сложными, но выполнимый, улучшая процесс настройки инструкций без необходимости дополнительных наборов данных. Результатом является более выборочно-эффективный и высокопроизводительный LLM, превосходящая многие более крупные модели.

Архитектура мышления: как «думает» Reflection 70B

Базовая архитектура Reflection 70B выводит рассуждения ИИ на новый уровень, разделяя процесс мышления на несколько этапов. Каждый этап позволяет модели итеративно улучшаться посредством саморефлексии, во многом подобно человеческому познанию:

Первоначальные данные и реакция: Модель начинается с генерации ответа на заданную инструкцию. Этот начальный вывод похож на стандартные выводы LLM.
Выборочное обучение Рефлексия: После генерации первоначального ответа модель переходит в фаза рефлексии инструкции. Модель учителя размышляет над исходной инструкцией и предлагает улучшения. Затем эти предложения оцениваются моделью ученика с использованием Оценка по шкале IFD чтобы определить, является ли новая пара «инструкция-ответ» более подходящей для дальнейшей настройки.
Избирательное отражение реакции: После размышления над инструкцией модель переходит к уточнению самого ответа. Здесь модель учителя генерирует новый ответ на основе обновленной инструкции. Модель ученика, используя оценка r-IFD, оценивает, помогает ли новый ответ более эффективно вывести инструкцию.
Финальная настройка инструкций: После выбора лучшей пары инструкция-ответ она добавляется в окончательный набор данных, используемый для тонкой настройки модели. Этот многоступенчатый процесс гарантирует, что только самые эффективные и согласованные пары инструкция-ответ включаются в данные тонкой настройки.

Эти структурированное отражение процесс позволяет пользователям видеть, как модель проходит итерации своего мыслительного процесса, обеспечивая прозрачность и значительно повышая точность и согласованность при выполнении сложных задач.

Сравнительный анализ Brilliance: Reflection 70B в действии

Использование Reflection 70B Selective Reflection-Tuning не только предлагает более сложный процесс обучения, но и достигает лидирующей в отрасли производительности по нескольким бенчмаркам. Благодаря своему итеративному механизму самооценки модель превосходит фирменные модели, которые значительно больше по размеру.

MMLU (Массовое многозадачное понимание языка): Reflection 70B показал впечатляющий результат 72.2%., превосходя другие крупные модели с открытым исходным кодом, такие как LLaMA 2.
Математический тест: В задачах на математическое рассуждение модель значительно превзошла GPT-4 и Claude 3.5, продемонстрировав свою силу в решении сложных задач.
IFEval и GSM8K: Reflection 70B также преуспел в IFEvalгде его согласованность инструкции и реакции была оценена, и в GSM8K, математический бенчмарк решения проблем. Саморефлексивная настройка позволила модели справляться со сложными и тонкими проблемами более эффективно, чем ее более крупные конкуренты.

Используя селективную настройку отражения, Reflection 70B продемонстрировал, что размер не единственный фактор в достижении высокой производительности. Способность самокорректироваться и размышлять на его выходах привело к более сильное, более последовательное рассуждение, что позволяет ему превосходить модели с большим количеством параметров.

диаграмма, сравнивающая производительность sRecycled WizardLM 7B с другими моделями, такими как Zephyr 7B Beta, Vicuna 13B v1.3 и LLaMA2 Chat 7B. Диаграмма подчеркивает высокую производительность sRecycled WizardLM 7B с подробным анализом побед, ничьих и поражений по разным моделям

Сравнение производительности sRecycled WizardLM 7B с другими моделями

Реальные приложения: использование потенциала Reflection 70B

Исправление ошибок в реальном времени и прозрачное принятие решений Reflection 70B открывают новые двери в различных областях. Ниже приведены некоторые реальные примеры использования:

Комплексное решение проблем

Сила Reflection 70B заключается в решении сложных проблем. Рассмотрим сложный математический запрос:

User: "Solve the equation: 2x^2 + 5x - 3 = 0"
Reflection 70B:

<thinking> Applying the quadratic formula...</thinking>
<reflection> A correction in calculation...</reflection>
<output> The solutions are x = 1/2 and x = -3.</output>

Перевод с учетом культурных особенностей

В отличие от типичных моделей перевода, Reflection 70B адаптирует языковые переводы к культурным контекстам:

User: "Translate 'It's raining cats and dogs' to French, considering cultural context."
Reflection 70B:

thinking :The literal translation would be "Il pleut des chats et des chiens"...thinking;
reflection: A culturally appropriate translation would be "Il pleut des cordes."reflection;
output: Translation provided.

Улучшение отладки и оптимизации кода

Возможности исправления ошибок Reflection 70B делают его идеальным для отладки и оптимизации кода:

User: "Debug this Python code..."
Reflection 70B: <thinking> Analyzing step by step...</thinking>
<reflection> Identified infinite recursion.</reflection>
<output> Corrected code version with proper recursion.</output>

Расширение конкурентной среды моделей 70B

Reflection 70B производит фурор, но он является частью более обширной экосистемы из 70 миллиардов моделей параметров. Вот как он выглядит в сравнении с другими:

Лама Меты 3.1-70Б: Прочная модель фундамента, известная для универсального применения.
Клод 2 70Б (антропный): Этичный ИИ-ориентированный специалист, умеющий рассуждать и генерировать развернутый контент.
GPT-3.5 70B (OpenAI): облегченная версия GPT-4, превосходная по балансу производительности и эффективности.
БЛУМ 70Б: Многоязычный специалист, обученный естественным языкам и языкам программирования.
Сокол 70B: Известен своей эффективностью обучения и вывода.

Эффективное использование моделей 70B: новейшие методы

Эффективное управление моделями такого размера — непростая задача. Чтобы максимизировать производительность, вот последние стратегии:

1. Квантование

Снижение точности веса модели помогает сократить использование памяти и время вывода. 4-битное квантование методы с использованием БитыИБайты позволяют Reflection 70B эффективно работать на меньших графических процессорах.

Пример:

from transformers import AutoModelForCausalLM
model = AutoModelForCausalLM.from_pretrained("meta-llama/Llama-2-70b-hf", load_in_4bit=True)

2. Шардинг модели

Разделение модели на несколько графических процессоров (например, с использованием DeepSpeed Zero) позволяет обрабатывать более крупные модели, не превышая объем памяти графического процессора.

from xformers.ops import memory_efficient_attention
model.attention = memory_efficient_attention

3. Смешанная точность и эффективное внимание

FlashAttention и xformers снижают нагрузку на внимание, сокращая время обработки больших последовательностей входных данных.

from xformers.ops import memory_efficient_attention
model.attention = memory_efficient_attention

4. Разгрузка и сокращение ЦП

Разгрузка процессора а сокращение менее критических весов помогает запускать модели на более скромном оборудовании, сохраняя при этом производительность.

from accelerate import cpu_offload
model = cpu_offload(model)

Взгляд в будущее: будущее с размышлениями 405B

Следующим рубежом для HyperWrite является разработка Отражение 405Б, модель, которая, как ожидается, превзойдет Reflection 70B как по масштабу, так и по производительности. Эта модель направлена на расширение границ открытого исходного кода ИИ, позиционируя себя как способную бросить вызов даже самым продвинутым проприетарным моделям, таким как GPT-5.

Заключение

Через Отражение-Настройка, Reflection 70B достигла лидирующей в отрасли производительности в ключевых тестах, сохраняя при этом уровень прозрачности и точности, редко встречающийся в ИИ с открытым исходным кодом. Его способность к самокоррекции дает ему явное преимущество, особенно в областях, требующих высокого уровня точности, таких как кодирование, языковой перевод и решение сложных проблем.

Аюш Миттал

Последние пять лет я погружался в увлекательный мир машинного обучения и глубокого обучения. Моя страсть и опыт позволили мне принять участие в более чем 50 различных проектах по разработке программного обеспечения, уделяя особое внимание AI/ML. Мое постоянное любопытство также привлекло меня к обработке естественного языка, области, которую я очень хочу исследовать дальше.