Искусственный интеллект

Внутри Microsoft Phi-3 Mini: Компактная модель ИИ, превосходящая ожидания

mm
Phi-3 : A Highly Capable Language Model Locally on Your Phone

Microsoft недавно представила свою последнюю компактную языковую модель под названием Phi-3 Mini, которая является частью трио компактных моделей ИИ, предназначенных для обеспечения передовых возможностей при одновременном сохранении небольшого размера для эффективной работы на устройствах с ограниченными вычислительными ресурсами. С только 3,8 миллиардами параметров Phi-3 Mini является лишь малой частью размера гигантов ИИ, таких как GPT-4, но она обещает соответствовать их возможностям во многих ключевых областях.

Разработка Phi-3 Mini представляет собой значительный этап в стремлении к демократизации передовых возможностей ИИ, делая их доступными на более широком спектре устройств. Ее небольшой размер позволяет развертывать ее локально на смартфонах, планшетах и других устройствах с ограниченными вычислительными ресурсами, преодолевая задержку и проблемы с конфиденциальностью, связанные с облачными моделями. Это открывает новые возможности для интеллектуальных опытов на устройствах в различных областях, от виртуальных помощников и разговорного ИИ до помощников по программированию и задач языкового понимания.

4-битовая квантованная Phi-3 Mini, работающая на iPhone
4-битовая квантованная Phi-3 Mini, работающая на iPhone

Под капотом: Архитектура и обучение

В основе своей Phi-3 Mini является модель декодера-трансформера, построенная на подобной архитектуре, как и открытая модель Llama-2. Она имеет 32 слоя, 3072 скрытых размерностей и 32 головки внимания, с контекстной длиной по умолчанию 4000 токенов. Microsoft также представила версию с длинным контекстом под названием Phi-3 Mini-128K, которая расширяет контекстную длину до 128 000 токенов с помощью методов, таких как LongRope.

Что отличает Phi-3 Mini, однако, это ее методология обучения. Вместо того, чтобы полагаться исключительно на силу больших наборов данных и вычислительной мощности, Microsoft сосредоточилась на создании высококачественного, насыщенного рассуждениями набора данных для обучения. Этот набор данных состоит из сильно отфильтрованных веб-данных, а также синтетических данных, сгенерированных более крупными языковыми моделями.

Процесс обучения включает в себя двухфазный подход. На первой фазе модель подвергается воздействию разнообразных веб-источников, направленных на обучение ее общим знаниям и пониманию языка. На второй фазе объединяются еще более сильно отфильтрованные веб-данные с синтетическими данными, предназначенными для передачи навыков логического рассуждения и экспертизы в конкретных областях.

Microsoft называет этот подход “оптимальным режимом данных”, который отличается от традиционного “оптимального режима вычислений” или “переобучения”, используемого многими крупными языковыми моделями. Цель состоит в том, чтобы откалибровать данные для обучения в соответствии с масштабом модели, обеспечивая правильный уровень знаний и способностей рассуждения, сохраняя при этом достаточную емкость для других возможностей.

Качество новых моделей Phi-3, измеренное по показателям Massive Multitask Language Understanding (MMLU)
Качество новых моделей Phi-3, измеренное по показателям Massive Multitask Language Understanding (MMLU)

Этот подход, ориентированный на данные, принес свои плоды, поскольку Phi-3 Mini демонстрирует замечательные результаты на широком спектре академических тестов, часто соперничая или превосходя более крупные модели. Например, она набирает 69% на тесте MMLU для многозадачного понимания языка и 8,38 на тесте MT-bench для математических рассуждений – результаты, сопоставимые с моделями, такими как Mixtral 8x7B и GPT-3.5.

Безопасность и надежность

Помимо впечатляющих возможностей, Microsoft уделяет большое внимание безопасности и надежности в разработке Phi-3 Mini. Модель прошла строгий пост-обучательный процесс, включающий контролируемое тонкое настройка (SFT) и прямую оптимизацию предпочтений (DPO).

Стадия SFT использует высоко отобранные данные из различных областей, включая математику, программирование, рассуждения, разговор, идентификацию модели и безопасность. Это помогает укрепить возможности модели в этих областях, одновременно воспитывая сильное чувство идентичности и этического поведения.

Стадия DPO, с другой стороны, фокусируется на направлении модели away от нежелательного поведения, используя отклоненные ответы в качестве отрицательных примеров. Этот процесс охватывает данные в формате чата, задачи рассуждения и усилия по ответственной ИИ (RAI), гарантируя, что Phi-3 Mini соответствует принципам Microsoft по этической и заслуживающей доверия ИИ.

Чтобы еще больше повысить свой профиль безопасности, Phi-3 Mini была подвергнута обширному красному тестированию и автоматическому тестированию по десяткам категорий вреда RAI. Независимая красная команда в Microsoft итеративно изучала модель, выявляя области для улучшения, которые затем устранялись с помощью дополнительных отобранных наборов данных и повторного обучения.

Этот многосторонний подход существенно снизил количество вредных ответов, фактических неточностей и предубеждений, как показано внутренними тестами RAI Microsoft. Например, модель демонстрирует низкие показатели дефектов для вредного контента (0,75%) и суммирования (10%), а также низкий уровень неопределенности (0,603), указывающий на то, что ее ответы твердо основаны на заданном контексте.

Применения и случаи использования

Благодаря впечатляющим возможностям и надежным мерам безопасности Phi-3 Mini хорошо подходит для широкого спектра применений, особенно в средах с ограниченными ресурсами и задержкой.

Одним из наиболее интересных перспектив является развертывание интеллектуальных виртуальных помощников и разговорного ИИ直接 на мобильных устройствах. Благодаря локальному выполнению эти помощники могут обеспечить мгновенные ответы без необходимости сетевого подключения, одновременно гарантируя, что конфиденциальные данные остаются на устройстве, решая проблемы с конфиденциальностью.

Сильные способности рассуждения Phi-3 Mini также делают ее ценным активом для помощи в программировании и математическом решении проблем. Разработчики и студенты могут получить пользу от локального завершения кода, обнаружения ошибок и объяснений, оптимизируя процесс разработки и обучения.

За пределами этих применений универсальность модели открывает возможности в таких областях, как понимание языка, суммирование текста и ответы на вопросы. Ее небольшой размер и эффективность делают ее привлекательным выбором для встраивания возможностей ИИ в широкий спектр устройств и систем, от умных бытовых приборов до промышленных автоматизированных систем.

Взгляд в будущее: Phi-3 Small и Phi-3 Medium

Хотя Phi-3 Mini является замечательным достижением сама по себе, Microsoft имеет еще более крупные планы для семейства Phi-3. Компания уже представила две более крупные модели, Phi-3 Small (7 миллиардов параметров) и Phi-3 Medium (14 миллиардов параметров), обе из которых, как ожидается, будут расширять границы возможностей компактных языковых моделей.

Phi-3 Small, например, использует более совершенный токенизатор (tiktoken) и механизм группового запроса внимания, а также новый слой блок-спарс внимания, для оптимизации своего размера памяти при сохранении возможности длинного контекстного извлечения. Она также включает в себя дополнительные 10% многоязычных данных, повышая свои возможности в понимании и генерации языка на нескольких языках.

Phi-3 Medium, с другой стороны, представляет собой значительный шаг вперед в масштабе, с 40 слоями, 40 головками внимания и размером вложения 5120. Хотя Microsoft отмечает, что некоторые тесты могут потребовать дальнейшего усовершенствования смеси данных для обучения, чтобы полностью использовать эту увеличенную емкость, первые результаты обнадеживают, с существенными улучшениями над Phi-3 Small в задачах, таких как MMLU, TriviaQA и HumanEval.

Ограничения и будущие направления

Несмотря на свои впечатляющие возможности, Phi-3 Mini, как и все языковые модели, не лишена ограничений. Одним из наиболее заметных слабостей является ее относительно ограниченная способность хранить фактические знания, как показано на тестах, таких как TriviaQA.

Однако Microsoft считает, что это ограничение можно смягчить, дополнив модель возможностями поиска, позволяя ей извлекать и рассуждать о релевантной информации по требованию. Этот подход продемонстрирован в Hugging Face Chat-UI, где Phi-3 Mini может использовать поиск для улучшения своих ответов.

Другой областью для улучшения является ее многоязычные возможности. Хотя Phi-3 Small сделала первые шаги, включив дополнительные многоязычные данные, дальнейшая работа необходима для полного раскрытия потенциала этих компактных моделей для кросс-лингвальных применений.

Взглянув в будущее, Microsoft привержена постоянному совершенствованию семейства моделей Phi, решению их ограничений и расширению их возможностей. Это может включать дальнейшие усовершенствования данных для обучения и методологии, а также изучение новых архитектур и методов, специально разработанных для компактных, высокопроизводительных языковых моделей.

Заключение

Phi-3 Mini от Microsoft представляет собой значительный шаг вперед в демократизации передовых возможностей ИИ. Обеспечивая передовые возможности в компактной, ресурсоэффективной упаковке, она открывает новые возможности для интеллектуальных опытов на устройствах в широком спектре применений.

Инновационный подход к обучению, который подчеркивает высококачественные, насыщенные рассуждениями данные над чистой вычислительной мощностью, оказался игроком, позволяя Phi-3 Mini превосходить ожидания в своем весовом классе. В сочетании с ее надежными мерами безопасности и продолжающимися усилиями по разработке семейство моделей Phi готово сыграть решающую роль в формировании будущего интеллектуальных систем, делая ИИ более доступным, эффективным и заслуживающим доверия, чем когда-либо прежде.

По мере того, как технологическая отрасль продолжает расширять границы того, что возможно с ИИ, приверженность Microsoft компактным, высокопроизводительным моделям, таким как Phi-3 Mini, представляет собой освежающий отход от традиционной мудрости “чем больше, тем лучше”. Демонстрируя, что размер не является всем, Phi-3 Mini имеет потенциал вдохновить новую волну инноваций, ориентированных на максимизацию ценности и воздействия ИИ посредством интеллектуального подбора данных, вдумчивого проектирования моделей и ответственных практик разработки.

Я провел последние пять лет, погружаясь в увлекательный мир машинного обучения и глубокого обучения. Моя страсть и экспертиза привели меня к участию в более чем 50 различных проектах программной инженерии, с особым акцентом на ИИ/МО. Мое непрекращающееся любопытство также привело меня к обработке естественного языка, области, которую я с нетерпением жду возможности изучить дальше.