Искусственный интеллект

Все, что вам нужно знать о Ламе 3 | Самая мощная модель с открытым исходным кодом | Концепции использования

опубликованный 24 апреля 2024

Аюш Миттал Mittal

Meta Llama 3 с открытым исходным кодом LLM превосходит GPT 4

Мета недавно выпустила Llama 3, следующее поколение современной модели большого языка с открытым исходным кодом (LLM). Основываясь на основах, заложенных своим предшественником, Llama 3 стремится расширить возможности, которые сделали Llama 2 важным конкурентом ChatGPT с открытым исходным кодом, как указано в подробном обзоре в статье. Лама 2: глубокое погружение в претендента на ChatGPT с открытым исходным кодом.

В этой статье мы обсудим основные концепции, лежащие в основе Llama 3, изучим ее инновационную архитектуру и процесс обучения, а также предоставим практические рекомендации по ответственному доступу, использованию и развертыванию этой революционной модели. Независимо от того, являетесь ли вы исследователем, разработчиком или энтузиастом искусственного интеллекта, этот пост предоставит вам знания и ресурсы, необходимые для использования возможностей Llama 3 для ваших проектов и приложений.

Эволюция ламы: от ламы 2 к ламе 3

Генеральный директор Meta Марк Цукерберг, объявил Дебют Llama 3, новейшей модели искусственного интеллекта, разработанной Meta AI. Эта передовая модель, теперь с открытым исходным кодом, призвана улучшить различные продукты Meta, включая Messenger и Instagram. Цукерберг подчеркнул, что Llama 3 позиционирует Meta AI как самый передовой свободно доступный AI-помощник.

Прежде чем мы поговорим об особенностях Llama 3, давайте кратко рассмотрим ее предшественницу Llama 2. Представленная в 2022 году, Llama 2 стала важной вехой в ландшафте LLM с открытым исходным кодом, предложив мощную и эффективную модель, которую можно запускать на потребительском оборудовании.

Однако, хотя Llama 2 была заметным достижением, у нее были свои ограничения. Пользователи сообщали о проблемах с ложными отказами (модель отказывалась отвечать на безобидные запросы), ограниченной полезностью и возможностями для улучшения в таких областях, как рассуждение и генерация кода.

Встречайте Llama 3: ответ Meta на эти вызовы и отзывы сообщества. С Llama 3 Meta поставила перед собой задачу создать лучшие модели с открытым исходным кодом, не уступающие лучшим проприетарным моделям, доступным сегодня, уделяя при этом первостепенное внимание ответственным методам разработки и внедрения.

Лама 3: Архитектура и обучение

Одним из ключевых нововведений в Llama 3 является токенизатор, который имеет значительно расширенный словарный запас. Знаки 128,256 (по сравнению с 32,000 2 в Ламе XNUMX). Этот больший словарный запас позволяет более эффективно кодировать текст как для ввода, так и для вывода, что потенциально приводит к усилению многоязычия и общему повышению производительности.

Лама 3 также включает в себя Внимание группового запроса (GQA), эффективный метод представления, который повышает масштабируемость и помогает модели более эффективно обрабатывать более длинные контексты. 8B версия Llama 3 использует GQA, в то время как обе версии 8B и 70B модели могут обрабатывать последовательности до Знаки 8,192.

Обучающие данные и масштабирование

Данные обучения, использованные для Llama 3, являются решающим фактором повышения производительности. Meta курировала огромный набор данных из более чем 15 трлн токенов из общедоступных онлайн-источников, что в семь раз больше, чем набор данных, использованный для Llama 2. Этот набор данных также включает значительную часть (более 5%) высококачественных неанглоязычных данных, охватывающих более Языки 30, в рамках подготовки к будущим многоязычным приложениям.

Чтобы обеспечить качество данных, Meta использовала передовые методы фильтрации, включая эвристические фильтры, фильтры NSFW, семантическую дедупликацию и классификаторы текста, обученные на Llama 2 для прогнозирования качества данных. Команда также провела обширные эксперименты, чтобы определить оптимальное сочетание источников данных для предварительного обучения, гарантируя, что Llama 3 хорошо работает в широком диапазоне вариантов использования, включая викторины, STEM, кодирование и исторические знания.

Масштабирование предварительной подготовки было ещё одним критически важным аспектом разработки Llama 3. Meta разработала законы масштабирования, которые позволили предсказать производительность самых крупных моделей при выполнении ключевых задач, таких как генерация кода, ещё до их обучения. Это повлияло на решения по составу данных и распределению вычислительных ресурсов, что в конечном итоге привело к более эффективному обучению.

Самые крупные модели Llama 3 обучались на двух специально созданных кластерах по 24,000 2 графических процессоров, используя комбинацию методов распараллеливания данных, распараллеливания моделей и распараллеливания конвейера. Расширенный учебный стек Meta автоматизировал обнаружение, обработку и обслуживание ошибок, максимизируя время безотказной работы графических процессоров и повышая эффективность обучения примерно в три раза по сравнению с Llama XNUMX.

Инструкция Тонкая настройка и производительность

Чтобы раскрыть весь потенциал Llama 3 для чата и диалоговых приложений, Meta разработала инновационный подход к тонкой настройке инструкций. Этот метод сочетает в себе контролируемая доводка (SFT), браковочная выборка, оптимизация проксимальной политики (ППО) и прямая оптимизация предпочтений (ДПО).

Качество подсказок, используемых в SFT, и рейтинги предпочтений, используемые в PPO и DPO, сыграли решающую роль в эффективности согласованных моделей. Команда Meta тщательно отобрала эти данные и провела несколько этапов контроля качества аннотаций, предоставленных людьми-аннотаторами.

Обучение ранжированию предпочтений с помощью PPO и DPO также значительно улучшило результаты Llama 3 в задачах на рассуждение и кодирование. Meta обнаружила, что даже когда модель испытывает трудности с прямым ответом на вопрос, требующий рассуждения, она всё равно может выдать правильный след рассуждения. Обучение ранжированию предпочтений позволило модели научиться выбирать правильный ответ из этих следов.

Результаты говорят сами за себя: Llama 3 превосходит многие доступные модели чатов с открытым исходным кодом по общим отраслевым тестам, устанавливая новый уровень производительности для LLM в масштабах параметров 8B и 70B.

Ответственная разработка и соображения безопасности

Стремясь к передовым показателям производительности, Meta также уделила первостепенное внимание ответственным методам разработки и развертывания Llama 3. Компания приняла системный подход, рассматривая модели Llama 3 как часть более широкой экосистемы, которая предоставляет разработчикам возможность управлять процессом, проектируя и настраивая модели для своих конкретных вариантов использования и требований безопасности.

Meta провела обширные учения по «красной команде», провела состязательную оценку и внедрила методы снижения безопасности, чтобы снизить остаточные риски в своих моделях, настроенных на инструкции. Однако компания признает, что остаточные риски, скорее всего, сохранятся, и рекомендует разработчикам оценивать эти риски в контексте их конкретных сценариев использования.

Чтобы поддержать ответственное развертывание, Meta обновила свое Руководство по ответственному использованию, предоставив разработчикам комплексный ресурс для реализации лучших практик безопасности на уровне модели и системы для своих приложений. В руководстве рассматриваются такие темы, как модерация контента, оценка рисков и использование инструментов безопасности, таких как Llama Guard 2 и Code Shield.

Llama Guard 2, основанный на таксономии MLCommons, предназначен для классификации входных данных (подсказок) и ответов LLM, выявляя контент, который может считаться небезопасным или вредоносным. CyberSecEval 2 расширяет возможности своего предшественника, добавляя меры для предотвращения злоупотреблений интерпретатором кода модели, агрессивных функций кибербезопасности и уязвимости к атакам с внедрением подсказок.

Code Shield, новое нововведение в Llama 3, добавляет фильтрацию небезопасного кода, создаваемого LLM, во время вывода, снижая риски, связанные с предложениями небезопасного кода, злоупотреблениями интерпретатором кода и безопасным выполнением команд.

Доступ и использование Llama 3

После запуска Llama 3 от Meta AI появилось несколько инструментов с открытым исходным кодом для локального развертывания в различных операционных системах, включая Mac, Windows и Linux. В этом разделе подробно описаны три наиболее примечательных инструмента: Ollama, Open WebUI и LM Studio, каждый из которых предлагает уникальные функции для использования возможностей Llama 3 на персональных устройствах.

Оллама: Доступно для Mac, Linux и Windows. Оллама упрощает работу Llama 3 и других крупных языковых моделей на персональных компьютерах, даже с менее надежным оборудованием. Он включает в себя менеджер пакетов для удобного управления моделями и поддерживает команды на разных платформах для загрузки и запуска моделей.

Откройте WebUI с помощью Docker: Этот инструмент обеспечивает удобный, Docker-интерфейс, совместимый с Mac, Linux и Windows. Он легко интегрируется с моделями из реестра Ollama, позволяя пользователям развертывать такие модели, как Llama 3, и взаимодействовать с ними через локальный веб-интерфейс.

ЛМ Студия: Ориентированы на пользователей Mac, Linux и Windows. ЛМ Студия поддерживает ряд моделей и основан на проекте llama.cpp. Он предоставляет интерфейс чата и облегчает прямое взаимодействие с различными моделями, включая модель Llama 3 8B Instruct.

Эти инструменты гарантируют, что пользователи смогут эффективно использовать Llama 3 на своих личных устройствах, учитывая широкий спектр технических навыков и требований. Каждая платформа предлагает пошаговые процессы настройки и взаимодействия с моделями, что делает продвинутый искусственный интеллект более доступным для разработчиков и энтузиастов.

Масштабное развертывание Llama 3

Помимо предоставления прямого доступа к весам моделей, Meta сотрудничает с различными поставщиками облачных услуг, службами API моделей и аппаратными платформами, чтобы обеспечить беспрепятственное развертывание Llama 3 в любом масштабе.

Одним из ключевых преимуществ Llama 3 является повышение эффективности токена благодаря новому токенизатору. Тесты показывают, что Llama 3 требует до На 15 % меньше токенов по сравнению с Llama 2, что приводит к более быстрому и экономичному выводу.

Интеграция внимания к групповым запросам (GQA) в версии 8B Llama 3 способствует поддержанию эффективности вывода на уровне версии 7B Llama 2, несмотря на увеличение количества параметров.

Чтобы упростить процесс развёртывания, Meta предоставила репозиторий Llama Recipes, содержащий открытый исходный код и примеры для тонкой настройки, развёртывания, оценки моделей и т. д. Этот репозиторий служит ценным ресурсом для разработчиков, стремящихся использовать возможности Llama 3 в своих приложениях.

Для тех, кто заинтересован в изучении возможностей Llama 3, компания Meta интегрировала свои новейшие модели в Meta AI — ведущего ИИ-помощника, созданного на основе технологий Llama 3. Пользователи могут взаимодействовать с Meta AI через различные приложения Meta, такие как Facebook, Instagram, WhatsApp, Messenger и веб-сайт, чтобы выполнять задачи, учиться, творить и общаться с тем, что для них важно.

Что ждет Llama 3 дальше?

Хотя модели 8B и 70B знаменуют собой начало выпуска Llama 3, у Meta есть амбициозные планы на будущее этой новаторской LLM.

В ближайшие месяцы мы можем ожидать появления новых возможностей, включая мультимодальность (возможность обрабатывать и генерировать различные модальности данных, такие как изображения и видео), многоязычие (поддержка нескольких языков) и гораздо более длинные контекстные окна для повышения производительности. задачи, требующие обширного контекста.

Кроме того, Meta планирует выпустить модели большего размера, в том числе модели с более чем 400 миллиардами параметров, которые в настоящее время проходят обучение и демонстрируют многообещающие тенденции с точки зрения производительности и возможностей.

Для дальнейшего развития этой области Meta также опубликует подробный исследовательский документ по Llama 3, поделившись своими выводами и идеями с более широким сообществом ИИ.

В качестве предварительного обзора будущих разработок Meta поделилась некоторыми предварительными результатами работы своей крупнейшей модели LLM в различных бенчмарках. Хотя эти результаты основаны на предварительной контрольной точке и могут быть изменены, они дают захватывающее представление о будущем потенциале Llama 3.

Заключение

Llama 3 представляет собой важную веху в эволюции моделей больших языков с открытым исходным кодом, расширяя границы производительности, возможностей и методов ответственной разработки. Благодаря своей инновационной архитектуре, обширному набору обучающих данных и передовым методам тонкой настройки Llama 3 устанавливает новые современные стандарты для LLM в масштабах параметров 8B и 70B.

Однако Llama 3 — это больше, чем просто мощная языковая модель; это свидетельство приверженности Meta развитию открытой и ответственной экосистемы искусственного интеллекта. Предоставляя комплексные ресурсы, инструменты безопасности и передовой опыт, Meta позволяет разработчикам раскрыть весь потенциал Llama 3, обеспечивая при этом ответственное внедрение, адаптированное к конкретным сценариям использования и целевой аудитории.

Поскольку развитие Llama 3 продолжается, с новыми возможностями, размерами моделей и результатами исследований на горизонте, сообщество ИИ с нетерпением ожидает инновационных приложений и прорывов, которые, несомненно, возникнут в результате этого новаторского LLM.

Независимо от того, являетесь ли вы исследователем, расширяющим границы обработки естественного языка, разработчиком, создающим следующее поколение интеллектуальных приложений, или энтузиастом ИИ, интересующимся последними достижениями, Llama 3 обещает стать мощным инструментом в вашем арсенале, открывая новые двери и мир возможностей.

Похожие темы:Лама лама 2 Llama 3 LLM LLM цель

Microsoft представляет Phi-3: мощные открытые модели искусственного интеллекта, обеспечивающие максимальную производительность при небольших размерах

Не пропустите

FrugalGPT: смена парадигмы в оптимизации затрат для больших языковых моделей

Аюш Миттал

Последние пять лет я погружался в увлекательный мир машинного обучения и глубокого обучения. Моя страсть и опыт позволили мне принять участие в более чем 50 различных проектах по разработке программного обеспечения, уделяя особое внимание AI/ML. Мое постоянное любопытство также привлекло меня к обработке естественного языка, области, которую я очень хочу исследовать дальше.