Искусственный интеллект

Внутри Microsoft’s Phi-3 Mini: Легковесная модель ИИ, превосходящая свои размеры

Published May 1, 2024

Updated April 27, 2026

Aayush Mittal Mittal

Microsoft недавно представила свою последнюю легковесную языковую модель под названием Phi-3 Mini, запустив трио компактных моделей ИИ, предназначенных для обеспечения передовых возможностей при одновременной достаточной компактности для эффективной работы на устройствах с ограниченными вычислительными ресурсами. С всего 3,8 миллиардами параметров Phi-3 Mini является лишь малой частью размера гигантов ИИ, таких как GPT-4, но она обещает соответствовать их возможностям во многих ключевых областях.

Разработка Phi-3 Mini представляет собой значительный этап на пути к демократизации передовых возможностей ИИ, делая их доступными на более широком спектре аппаратного обеспечения. Ее небольшой размер позволяет развертывать ее локально на смартфонах, планшетах и других устройствах edge, преодолевая задержку и проблемы с конфиденциальностью, связанные с облачными моделями. Это открывает новые возможности для интеллектуальных опытов на устройстве в различных областях, от виртуальных помощников и разговорного ИИ до помощников по программированию и задач понимания языка.

: 4-битовая квантованная phi-3-mini, работающая на iPhone

Под капотом: Архитектура и обучение

В своей основе Phi-3 Mini представляет собой модель декодера трансформера, построенную на подобной архитектуре, как открытая модель Llama-2. Она включает 32 слоя, 3072 скрытых размерностей и 32 головки внимания, с длиной контекста по умолчанию 4 000 токенов. Microsoft также представила версию с длинным контекстом под названием Phi-3 Mini-128K, которая увеличивает длину контекста до впечатляющих 128 000 токенов с помощью методов, таких как LongRope.

Что отличает Phi-3 Mini, однако, это ее методология обучения. Вместо того, чтобы полагаться исключительно на силу больших наборов данных и вычислительной мощности, Microsoft сосредоточилась на создании высококачественного, насыщенного рассуждениями набора данных для обучения. Эти данные состоят из сильно отфильтрованных веб-данных, а также синтетических данных, сгенерированных более крупными языковыми моделями.

Процесс обучения включает двухфазный подход. На первом этапе модель знакомится с разнообразным набором веб-источников, направленных на обучение ее общим знаниям и пониманию языка. Второй этап объединяет еще более сильно отфильтрованные веб-данные с синтетическими данными, предназначенными для передачи навыков логического рассуждения и экспертизы в конкретных областях.

Microsoft называет этот подход “оптимальным режимом данных”, который отличается от традиционного “оптимального режима вычислений” или “режима переобучения”, используемого многими крупными языковыми моделями. Цель состоит в том, чтобы откалибровать данные для обучения, чтобы они соответствовали масштабу модели, обеспечивая правильный уровень знаний и способностей рассуждения, сохраняя при этом достаточную емкость для других возможностей.

: Качество новых моделей Phi-3, измеренное по показателям Massive Multitask Language Understanding (MMLU) бенчмарка

Этот подход, ориентированный на данные, принес свои плоды, поскольку Phi-3 Mini демонстрирует замечательную производительность по широкому спектру академических бенчмарков, часто соперничая или превосходя более крупные модели. Например, она набирает 69% на бенчмарке MMLU для многозадачного обучения и понимания, и 8,38 на бенчмарке MT-bench для математических рассуждений – результаты, сопоставимые с моделями, такими как Mixtral 8x7B и GPT-3.5.

Безопасность и надежность

Помимо впечатляющей производительности, Microsoft уделяет большое внимание безопасности и надежности в разработке Phi-3 Mini. Модель прошла строгий пост-обучение, включающий контролируемое тонкое настройка (SFT) и прямую оптимизацию предпочтений (DPO).

Этап SFT использует высоко отобранные данные по различным областям, включая математику, программирование, рассуждение, разговор, идентификацию модели и безопасность. Это помогает укрепить возможности модели в этих областях, одновременно воспитывая сильное чувство идентичности и этического поведения.

Этап DPO, с другой стороны, направлен на отклонение модели от нежелательного поведения путем использования отклоненных ответов в качестве отрицательных примеров. Этот процесс охватывает данные в формате чата, задачи рассуждения и усилия по ответственной ИИ (RAI), обеспечивая, чтобы Phi-3 Mini соответствовала принципам этической и заслуживающей доверия ИИ Microsoft.

Чтобы еще больше повысить ее профиль безопасности, Phi-3 Mini была подвергнута обширному красному командному тестированию и автоматизированному тестированию по десяткам категорий вреда RAI. Независимая красная команда в Microsoft итеративно изучала модель, выявляя области для улучшения, которые затем устранялись посредством дополнительных отобранных наборов данных и повторного обучения.

Этот многосторонний подход существенно снизил количество вредных ответов, фактических неточностей и предубеждений, как показано внутренними бенчмарками RAI Microsoft. Например, модель демонстрирует низкие показатели дефектов для вредного продолжения контента (0,75%) и суммаризации (10%), а также низкий уровень необоснованности (0,603), указывающий на то, что ее ответы твердо основаны на данном контексте.

Применения и случаи использования

Благодаря впечатляющей производительности и надежным мерам безопасности, Phi-3 Mini хорошо подходит для широкого спектра применений, особенно в ресурсно-ограниченных средах и сценариях, ограниченных задержкой.

Одним из наиболее интересных перспектив является развертывание интеллектуальных виртуальных помощников и разговорного ИИ直接 на мобильных устройствах. Благодаря локальному выполнению эти помощники могут обеспечивать мгновенные ответы без необходимости сетевого подключения, одновременно гарантируя, что конфиденциальные данные остаются на устройстве, решая проблемы конфиденциальности.

Сильные способности рассуждения Phi-3 Mini также делают ее ценным активом для помощи в программировании и математическом решении проблем. Разработчики и студенты могут извлечь пользу из локального завершения кода, обнаружения ошибок и объяснений, оптимизируя процесс разработки и обучения.

Помимо этих применений, универсальность модели открывает возможности в таких областях, как понимание языка, суммаризация текста и ответы на вопросы. Ее небольшой размер и эффективность делают ее привлекательным выбором для встраивания возможностей ИИ в широкий спектр устройств и систем, от умных бытовых приборов до систем промышленной автоматизации.

Взгляд в будущее: Phi-3 Small и Phi-3 Medium

Хотя Phi-3 Mini является замечательным достижением сама по себе, Microsoft имеет еще более большие планы для семейства Phi-3. Компания уже представила две более крупные модели, Phi-3 Small (7 миллиардов параметров) и Phi-3 Medium (14 миллиардов параметров), которые, как ожидается, будут расширять границы производительности компактных языковых моделей.

Phi-3 Small, например, использует более совершенный токенизатор (tiktoken) и механизм группового запроса внимания, а также новый слой внимания blocksparse, чтобы оптимизировать ее памятный след, сохраняя при этом производительность извлечения длинного контекста. Она также включает дополнительные 10% многоязычных данных, повышая ее возможности в понимании и генерации языка на нескольких языках.

Phi-3 Medium представляет собой значительный шаг вперед по масштабу, с 40 слоями, 40 головками внимания и размером вложения 5 120. Хотя Microsoft отмечает, что некоторые бенчмарки могут потребовать дальнейшего уточнения смеси данных для обучения, чтобы полностью использовать эту увеличенную емкость, первые результаты обещают, с существенным улучшением над Phi-3 Small в задачах, таких как MMLU, TriviaQA и HumanEval.

Ограничения и будущие направления

Несмотря на впечатляющие возможности, Phi-3 Mini, как и все языковые модели, не без ограничений. Одним из наиболее заметных слабостей является ее относительно ограниченная способность хранить фактические знания, как показано ее более низкой производительностью на бенчмарках, таких как TriviaQA.

Однако Microsoft считает, что это ограничение можно смягчить, дополнив модель возможностями поисковых систем, позволяя ей извлекать и рассуждать о соответствующей информации по требованию. Этот подход демонстрируется в Hugging Face Chat-UI, где Phi-3 Mini может использовать поиск для улучшения своих ответов.

Другой областью для улучшения является ее многоязычные возможности. Хотя Phi-3 Small сделала первые шаги, включив дополнительные многоязычные данные, дальнейшая работа необходима для полного раскрытия потенциала этих компактных моделей для кросс-лингвальных применений.

Взглянув вперед, Microsoft привержена постоянному совершенствованию семейства моделей Phi, решая их ограничения и расширяя их возможности. Это может включать дальнейшие усовершенствования данных для обучения и методологии, а также изучение новых архитектур и методов, специально разработанных для компактных, высокопроизводительных языковых моделей.

Заключение

Phi-3 Mini от Microsoft представляет собой значительный шаг вперед в демократизации передовых возможностей ИИ. Обеспечивая передовую производительность в компактном, ресурсоэффективном пакете, она открывает новые возможности для интеллектуальных опытов на устройстве в широком спектре применений.

Инновационный подход к обучению модели, который подчеркивает высококачественные, насыщенные рассуждениями данные над чистой вычислительной мощностью, оказался прорывным, позволяя Phi-3 Mini превосходить свои размеры. В сочетании с ее надежными мерами безопасности и продолжающимися усилиями по разработке, семейство моделей Phi готово сыграть решающую роль в формировании будущего интеллектуальных систем, делая ИИ более доступным, эффективным и заслуживающим доверия, чем когда-либо прежде.

Поскольку технологическая отрасль продолжает расширять границы того, что возможно с ИИ, приверженность Microsoft легковесным, высокопроизводительным моделям, таким как Phi-3 Mini, представляет собой освежающий отход от общепринятого мнения о том, что “больше значит лучше”. Демонстрируя, что размер не является всем, Phi-3 Mini имеет потенциал вдохновить новую волну инноваций, сосредоточенную на максимизации ценности и воздействия ИИ посредством интеллектуальной обработки данных, вдумчивого проектирования модели и ответственных практик разработки.

Aayush Mittal

Я провел последние пять лет, погружаясь в увлекательный мир Machine Learning и Deep Learning. Моя страсть и экспертиза привели меня к участию в более чем 50 различных проектах по разработке программного обеспечения, с особым акцентом на AI/ML. Мое непрекращающееся любопытство также привело меня к Natural Language Processing, области, которую я с нетерпением жду возможности изучить более подробно.

Unite.AI