Connect with us

Представляем Meta Llama 3: Большой шаг вперед в области больших языковых моделей

Искусственный интеллект

Представляем Meta Llama 3: Большой шаг вперед в области больших языковых моделей

mm

В области генеративного ИИ Meta продолжает лидировать, обеспечивая открытый доступ к своим передовым большим языковым моделям Meta AI (Llama) для разработчиков и исследователей по всему миру. Расширяя свои прогрессивные инициативы, Meta недавно представила третью итерацию этой серии, Llama 3. Эта новая редакция значительно улучшает Llama 2, предлагая многочисленные улучшения и устанавливая стандарты, которые бросают вызов отраслевым конкурентам, таким как Google, Mistral и Anthropic. В этой статье исследуются значительные достижения Llama 3 и то, как она сравнивается со своим предшественником, Llama 2.

Серия Llama от Meta: от эксклюзивности к открытому доступу и улучшению производительности

Meta запустила свою серию Llama в 2022 году с выпуском Llama 1, модели, ограниченной для некоммерческого использования и доступной только для выбранных исследовательских учреждений из-за огромных вычислительных требований и проприетарной природы, характерной для передовых LLM в то время. В 2023 году с выпуском Llama 2 Meta AI сместила фокус в сторону большей открытости, предлагая модель бесплатно для исследований и коммерческих целей. Этот шаг был предназначен для демократизации доступа к сложным генеративным технологиям ИИ, позволяя более широкому кругу пользователей, включая стартапы и меньшие исследовательские команды, инновировать и разрабатывать приложения без высоких затрат, обычно связанных с крупномасштабными моделями. Продолжая эту тенденцию к открытости, Meta представила Llama 3, которая фокусируется на улучшении производительности меньших моделей по различным промышленным стандартам.

Представляем Llama 3

Llama 3 – это второе поколение открытых больших языковых моделей Meta (LLM), в которых представлены как предварительно обученные, так и инструкционно-тонко настроенные модели с 8B и 70B параметров. В соответствии с ее предшественниками Llama 3 использует только декодер архитектуру трансформера и продолжает практику автoregressивного, самообучения для прогнозирования последующих токенов в текстовых последовательностях. Llama 3 предварительно обучена на наборе данных, который в семь раз больше, чем тот, который использовался для Llama 2, включающем более 15 триллионов токенов, полученных из новой кураторской смеси публично доступных онлайн-данных. Этот огромный набор данных обрабатывается с помощью двух кластеров, оснащенных 24 000 GPU. Чтобы сохранить высокое качество этих тренировочных данных, были использованы различные техники, ориентированные на данные, включая фильтры на основе эвристик и NSFW, семантическую дедупликацию и классификацию качества текста. Специально разработанная для диалоговых приложений, модель Llama 3 Instruct была значительно улучшена, включающая более 10 миллионов образцов, аннотированных человеком, и использующая сложную смесь методов обучения, таких как контролируемое тонкое настройка (SFT), выборочное отклонение, проксимальная оптимизация политики (PPO) и прямая оптимизация политики (DPO).

Llama 3 vs. Llama 2: Ключевые улучшения

Llama 3 приносит несколько улучшений по сравнению с Llama 2, значительно повышая свою функциональность и производительность:

  • Расширенный словарь: Llama 3 увеличил свой словарь до 128 256 токенов, по сравнению с 32 000 токенами Llama 2. Это улучшение поддерживает более эффективную кодировку текста как для входных, так и для выходных данных и укрепляет ее многоязычные возможности.
  • Увеличенная длина контекста: Модели Llama 3 обеспечивают длину контекста 8 000 токенов, удвоив 4 090 токенов, поддерживаемых Llama 2. Это увеличение позволяет обрабатывать более обширный контент, охватывающий как пользовательские подсказки, так и ответы модели.
  • Улучшенный тренировочный набор данных: Тренировочный набор данных для Llama 3 в семь раз больше, чем для Llama 2, включая четыре раза больше кода. Он содержит более 5% высококачественных, неанглийских данных, охватывающих более 30 языков, что важно для поддержки многоязычных приложений. Эти данные проходят строгкий контроль качества с использованием передовых методов, таких как фильтры на основе эвристик и NSFW, семантическая дедупликация и текстовые классификаторы.
  • Уточненная настройка инструкций и оценка: Отклоняясь от Llama 2, Llama 3 использует передовые методы настройки инструкций, включая контролируемое тонкое настройка (SFT), выборочное отклонение, проксимальную оптимизацию политики (PPO) и прямую оптимизацию политики (DPO). Чтобы дополнить этот процесс, был представлен новый высококачественный набор оценки человека, состоящий из 1 800 подсказок, охватывающих различные случаи использования, такие как советы, мозговой штурм, классификация, кодирование и многое другое, обеспечивая всестороннюю оценку и тонкую настройку возможностей модели.
  • Передовая безопасность ИИ: Llama 3, как и Llama 2, включает строгие меры безопасности, такие как тонкая настройка инструкций и всестороннее красное командование, для смягчения рисков, особенно в критических областях, таких как кибербезопасность и биологические угрозы. В поддержку этих усилий Meta также представила Llama Guard 2, тонко настроенную на 8B-версии Llama 3. Эта новая модель улучшает серии Llama Guard путем классификации входных и выходных данных LLM для выявления потенциально небезопасного контента, что делает ее идеальной для производственных сред.

Доступность Llama 3

Модели Llama 3 теперь интегрированы в экосистему Hugging Face, улучшая доступность для разработчиков. Модели также доступны через платформы “модель как услуга”, такие как Perplexity Labs и Fireworks.ai, и на облачных платформах, таких как AWS SageMaker, Azure ML и Vertex AI. Meta планирует расширить доступность Llama 3, включая платформы, такие как Google Cloud, Kaggle, IBM WatsonX, NVIDIA NIM и Snowflake. Кроме того, поддержка оборудования для Llama 3 будет расширена для включения платформ от AMD, AWS, Dell, Intel, NVIDIA и Qualcomm.

Предстоящие улучшения в Llama 3

Meta объявила, что текущий выпуск Llama 3 является лишь начальной фазой в их более широкой концепции полной версии Llama 3. Они разрабатывают передовую модель с более чем 400 миллиардами параметров, которая введет новые функции, включая многомодальность и возможность обработки нескольких языков. Эта улучшенная версия также будет иметь значительно расширенное окно контекста и улучшенные возможности производительности.

Основное

Llama 3 от Meta представляет собой значительную эволюцию в ландшафте больших языковых моделей, продвигая серию не только к большей открытости, но и значительно улучшая ее производительную способность. С тренировочным набором данных, который в семь раз больше, чем у ее предшественника, и функциями, такими как расширенный словарь и увеличенная длина контекста, Llama 3 устанавливает новые стандарты, которые бросают вызов даже самым сильным отраслевым конкурентам.

Эта третья итерация не только продолжает демократизировать технологию ИИ, делая высокоуровневые возможности доступными для более широкого спектра разработчиков, но и вводит значительные достижения в области безопасности и точности обучения. Интегрируя эти модели в платформы, такие как Hugging Face, и расширяя доступность через крупные облачные сервисы, Meta обеспечивает, что Llama 3 будет такой же повсеместной, как и мощной.

Глядя вперед, продолжающееся развитие Meta обещает еще более прочные возможности, включая многомодальность и расширенную поддержку языков, что создает сцену для Llama 3, чтобы она не только конкурировала, но и потенциально превосходила другие крупные модели ИИ на рынке. Llama 3 – это свидетельство приверженности Meta лидерству в ИИ-революции, предоставляя инструменты, которые не только более доступны, но и значительно более продвинуты и безопасны для глобальной аудитории.

Доктор Техсин Зия является доцентом в университете COMSATS в Исламабаде, имеющим степень PhD в области ИИ в Венском техническом университете, Австрия. Специализируясь в области искусственного интеллекта, машинного обучения, науки о данных и компьютерного зрения, он внес значительный вклад с публикациями в авторитетных научных журналах. Доктор Техсин также возглавлял различные промышленные проекты в качестве основного исследователя и служил консультантом по ИИ.