Искусственный интеллект

Внутри Microsoft Phi-3 Mini: легкая модель искусственного интеллекта, превосходящая свой вес

опубликованный 1 мая 2024

Аюш Миттал Mittal

Microsoft недавно представила свою новейшую облегченную языковую модель под названием Phi-3 Mini, положив начало трем компактным моделям искусственного интеллекта, которые предназначены для обеспечения высочайшей производительности, но при этом достаточно малы для эффективной работы на устройствах с ограниченными вычислительными ресурсами. Имея всего 3.8 миллиарда параметров, Phi-3 Mini представляет собой небольшую часть размера гигантов искусственного интеллекта, таких как GPT-4, но обещает соответствовать их возможностям во многих ключевых областях.

Развитие Фи-3 Мини представляет собой важную веху в стремлении демократизировать передовые возможности искусственного интеллекта, сделав их доступными на более широком спектре оборудования. Его небольшой размер позволяет развертывать его локально на смартфонах, планшетах и других периферийных устройствах, преодолевая проблемы с задержкой и конфиденциальностью, связанные с облачными моделями. Это открывает новые возможности для интеллектуального взаимодействия на устройствах в различных областях: от виртуальных помощников и диалогового искусственного интеллекта до помощников по программированию и задач по распознаванию языка.

: 4-битное квантование фи-3-мини изначально работает на iPhone

Под капотом: архитектура и обучение

По своей сути Phi-3 Mini представляет собой модель декодера-трансформера, построенную на той же архитектуре, что и модель Ламы-2 с открытым исходным кодом. Он имеет 32 слоя, 3072 скрытых измерения и 32 заголовка внимания, а длина контекста по умолчанию составляет 4,000 токенов. Microsoft также представила версию с длинным контекстом под названием Phi-3 Mini-128K, которая увеличивает длину контекста до впечатляющих 128,000 XNUMX токенов с использованием таких технологий, как LongRope.

Однако что отличает Phi-3 Mini от других, так это его методология обучения. Вместо того, чтобы полагаться исключительно на грубую силу массивных наборов данных и вычислительную мощность, Microsoft сосредоточилась на создании высококачественного, насыщенного логическими наборами обучающих данных. Эти данные состоят из сильно отфильтрованных веб-данных, а также синтетических данных, созданных более крупными языковыми моделями.

Процесс обучения проходит в два этапа. На первом этапе модель подвергается воздействию различных веб-источников, направленных на обучение общим знаниям и пониманию языка. Второй этап объединяет еще более тщательно отфильтрованные веб-данные с синтетическими данными, предназначенными для придания навыков логического рассуждения и опыта в нишевой области.

Microsoft называет этот подход «оптимальным режимом данных», что является отходом от традиционного «оптимального режима вычислений» или «режима переобучения», применяемого во многих крупных языковых моделях. Цель состоит в том, чтобы откалибровать обучающие данные в соответствии с масштабом модели, обеспечивая необходимый уровень знаний и способности к рассуждению, при этом оставляя достаточно места для других возможностей.

: Качество новых моделей Фи-3, измеренная по производительности в тесте Massive Multitask Language Analysis (MMLU).

Этот подход, ориентированный на данные, оправдал себя, поскольку Phi-3 Mini достигает выдающихся результатов в широком диапазоне академических тестов, часто конкурируя или превосходя гораздо более крупные модели. Например, он набирает 69% по тесту MMLU за многозадачное обучение и понимание и 8.38 по тесту MT за математические рассуждения — результаты, которые находятся на одном уровне с такими моделями, как Mixtral 8x7B и GPT-3.5.

Безопасность и надежность

Наряду с впечатляющей производительностью, Microsoft уделила особое внимание безопасности и надежности при разработке Phi-3 Mini. Модель прошла строгий процесс постобучения, включающий контролируемую тонкую настройку (SFT) и прямую оптимизацию предпочтений (DPO).

На этапе SFT используются тщательно отобранные данные из различных областей, включая математику, программирование, рассуждения, диалог, идентичность модели и безопасность. Это помогает усилить возможности модели в этих областях, одновременно формируя сильное чувство идентичности и этичного поведения.

На этапе DPO, с другой стороны, основное внимание уделяется предотвращению нежелательного поведения модели, используя отклонённые ответы в качестве негативных примеров. Этот процесс охватывает данные формата чата, задачи логического мышления и ответственные действия ИИ (RAI), гарантируя, что Phi-3 Mini соответствует принципам этичного и надёжного ИИ Microsoft.

Для дальнейшего повышения профиля безопасности Phi-3 Mini был подвергнут обширному совместному и автоматизированному тестированию по десяткам категорий вреда RAI. Независимая красная группа Microsoft итеративно исследовала модель, выявив области для улучшения, которые затем были устранены с помощью дополнительных наборов данных и переобучения.

Этот многосторонний подход значительно снизил частоту вредоносных ответов, фактических неточностей и предвзятости, что подтверждается внутренними бенчмарками Microsoft RAI. Например, модель демонстрирует низкий уровень дефектов, связанных с продолжением вредоносного контента (0.75%) и резюмированием (10%), а также низкий уровень необоснованности (0.603), что свидетельствует о прочной увязке ответов с заданным контекстом.

Приложения и варианты использования

Благодаря впечатляющей производительности и надежным мерам безопасности Phi-3 Mini хорошо подходит для широкого спектра приложений, особенно в средах с ограниченными ресурсами и в сценариях с ограниченными задержками.

Одна из самых интересных перспектив — внедрение интеллектуальных виртуальных помощников и диалогового ИИ непосредственно на мобильных устройствах. Запускаясь локально, эти помощники могут обеспечивать мгновенные ответы без необходимости подключения к сети, а также гарантировать, что конфиденциальные данные останутся на устройстве, решая проблемы конфиденциальности.

Высокие логические способности Phi-3 Mini также делают его ценным инструментом для помощи в программировании и решении математических задач. Разработчики и студенты могут воспользоваться функциями автодополнения кода на устройстве, обнаружения ошибок и пояснений, что оптимизирует процессы разработки и обучения.

Помимо этих применений, универсальность модели открывает возможности в таких областях, как понимание языка, реферирование текста и ответы на вопросы. Компактность и эффективность делают её привлекательным выбором для внедрения возможностей ИИ в широкий спектр устройств и систем, от умной бытовой техники до систем промышленной автоматизации.

Заглядывая в будущее: Phi-3 Small и Phi-3 Medium

В то время как Фи-3 Мини Это само по себе выдающееся достижение, у Microsoft еще большие планы на семейство Phi-3. Компания уже анонсировала две более крупные модели: Phi-3 Small (7 миллиардов параметров) и Phi-3 Medium (14 миллиардов параметров), обе из которых, как ожидается, расширят границы производительности для компактных языковых моделей.

Например, Phi-3 Small использует более продвинутый токенизатор (tiktoken) и механизм внимания сгруппированных запросов, а также новый уровень внимания с разрежением блоков, чтобы оптимизировать объем памяти, сохраняя при этом производительность долгого извлечения контекста. Он также включает дополнительные 10% многоязычных данных, расширяя возможности понимания языков и генерации данных на нескольких языках.

Phi-3 Medium, с другой стороны, представляет собой значительный шаг вперед в масштабе: 40 слоев, 40 головок внимания и размерность встраивания 5,120. Хотя Microsoft отмечает, что некоторые тесты могут потребовать дальнейшего уточнения набора обучающих данных, чтобы в полной мере использовать эту возросшую мощность, первоначальные результаты являются многообещающими: существенные улучшения по сравнению с Phi-3 Small в таких задачах, как MMLU, TriviaQA и HumanEval.

Ограничения и будущие направления

Несмотря на впечатляющие возможности, Phi-3 Mini, как и все языковые модели, не лишен ограничений. Одним из наиболее заметных недостатков является его относительно ограниченная способность хранить фактические знания, о чем свидетельствует его более низкая производительность в таких тестах, как TriviaQA.

Однако Microsoft считает, что это ограничение можно смягчить, дополнив модель возможностями поисковой системы, что позволит ей извлекать и анализировать соответствующую информацию по запросу. Этот подход продемонстрирован в Пользовательский интерфейс чата «Обнимающее лицо», где Phi-3 Mini может использовать поиск для улучшения своих ответов.

Ещё одной областью для улучшения являются многоязычные возможности модели. Хотя Phi-3 Small уже сделала первые шаги, включив дополнительные многоязычные данные, необходимы дальнейшие исследования, чтобы полностью раскрыть потенциал этих компактных моделей для кросс-языковых приложений.

Заглядывая в будущее, Microsoft стремится постоянно совершенствовать семейство моделей Phi, устраняя их ограничения и расширяя возможности. Это может включать дальнейшее совершенствование данных и методологии обучения, а также исследование новых архитектур и методов, специально предназначенных для компактных и высокопроизводительных языковых моделей.

Заключение

Phi-3 Mini от Microsoft — это значительный шаг вперёд в демократизации передовых возможностей искусственного интеллекта. Обеспечивая высочайшую производительность в компактном и ресурсоэффективном корпусе, он открывает новые возможности для интеллектуальных решений на устройствах в широком спектре приложений.

Инновационный подход к обучению модели, делающий акцент на высококачественных данных с высокой плотностью рассуждений, а не на чистой вычислительной мощности, оказался революционным, позволив Phi-3 Mini значительно превзойти свой класс. В сочетании с надёжными мерами безопасности и постоянными разработками, семейство моделей Phi-3 готово сыграть решающую роль в формировании будущего интеллектуальных систем, сделав искусственный интеллект более доступным, эффективным и надёжным, чем когда-либо прежде.

В то время как технологическая индустрия продолжает расширять границы возможностей искусственного интеллекта, стремление Microsoft к созданию лёгких и высокопроизводительных моделей, таких как Phi-3 Mini, представляет собой освежающий отход от общепринятого принципа «чем больше, тем лучше». Демонстрируя, что размер — это не всё, Phi-3 Mini может вдохновить новую волну инноваций, направленных на максимизацию ценности и влияния искусственного интеллекта посредством интеллектуального сбора данных, продуманного проектирования моделей и ответственных методов разработки.

Аюш Миттал

Последние пять лет я погружался в увлекательный мир машинного обучения и глубокого обучения. Моя страсть и опыт позволили мне принять участие в более чем 50 различных проектах по разработке программного обеспечения, уделяя особое внимание AI/ML. Мое постоянное любопытство также привлекло меня к обработке естественного языка, области, которую я очень хочу исследовать дальше.

Unite.ИИ