Искусственный интеллект

Qwen2 – Последняя многоязычная модель языка Alibaba бросает вызов SOTA, как Llama 3

Published June 11, 2024

Updated April 27, 2026

Aayush Mittal Mittal

После месяцев ожидания, команда Qwen от Alibaba наконец представила Qwen2 – следующую эволюцию их мощной серии моделей языка. Qwen2 представляет собой значительный шаг вперед, обладая передовыми достижениями, которые потенциально могут позиционировать его как лучшую альтернативу модели Llama 3 от Meta. В этом техническом глубоком анализе мы исследуем ключевые функции, показатели производительности и инновационные техники, которые делают Qwen2 грозным претендентом в области больших языковых моделей (LLM).

Масштабирование: Представление линейки моделей Qwen2

В основе Qwen2 лежит разнообразная линейка моделей, предназначенных для удовлетворения различных вычислительных требований. Серия включает в себя пять различных размеров моделей: Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B и флагманский Qwen2-72B. Этот диапазон вариантов удовлетворяет широкому спектру пользователей, от тех, у кого есть скромные аппаратные ресурсы, до тех, у кого есть доступ к передовому вычислительному оборудованию.

Одной из выдающихся особенностей Qwen2 является его многоязычные возможности. Хотя предыдущая модель Qwen1.5 отлично справлялась с английским и китайским языками, Qwen2 был обучен на данных, охватывающих впечатляющие 27 дополнительных языков. Этот многоязычный режим обучения включает языки из различных регионов, таких как Западная Европа, Восточная и Центральная Европа, Ближний Восток, Восточная Азия и Южная Азия.

Таблица, перечисляющая языки, поддерживаемые моделями Qwen2, категоризированные по регионам

Языки, поддерживаемые моделями Qwen2, категоризированные по географическим регионам

Расширяя свой лингвистический репертуар, Qwen2 демонстрирует исключительную способность понимать и генерировать контент на широком диапазоне языков, что делает его бесценным инструментом для глобальных приложений и межкультурной коммуникации.

Таблица, сравнивающая модели Qwen2 по параметрам, не-вложенным параметрам, GQA, связыванию вложений и длине контекста

Спецификации моделей Qwen2, включая параметры, GQA и длину контекста.

Решение проблемы код-свитчинга: Многоязычный вызов

В многоязычных контекстах явление код-свитчинга – практика чередования между разными языками в рамках одного разговора или высказывания – является обычным явлением. Qwen2 был тщательно обучен для обработки сценариев код-свитчинга, значительно снижая связанные с этим проблемы и обеспечивая плавные переходы между языками.

Оценки с помощью подсказок, которые обычно вызывают код-свитчинг, подтвердили значительное улучшение Qwen2 в этой области, что является свидетельством приверженности Alibaba созданию真正 многоязычной модели языка.

Отличие в кодировании и математике

Qwen2 имеет замечательные возможности в области кодирования и математики, областях, которые традиционно представляли собой проблемы для моделей языка. Используя обширные высококачественные наборы данных и оптимизированные методы обучения, Qwen2-72B-Instruct, вариант модели с инструкциями, демонстрирует исключительную производительность при решении математических задач и задач кодирования на различных языках программирования.

Расширение контекстного понимания

Одной из наиболее впечатляющих особенностей Qwen2 является его способность понимать и обрабатывать расширенные контекстные последовательности. Хотя большинство моделей языка испытывают трудности с длинными текстами, модели Qwen2-7B-Instruct и Qwen2-72B-Instruct были разработаны для обработки контекстов длиной до 128K токенов.

Эта замечательная способность является прорывом для приложений, которые требуют глубокого понимания длинных документов, таких как юридические контракты, исследовательские статьи или плотные технические руководства. Обрабатывая эффективно расширенные контексты, Qwen2 может обеспечить более точные и полные ответы, открывая новые горизонты в обработке естественного языка.

График, показывающий точность извлечения фактов моделей Qwen2 из документов при различных длинах контекста и глубине документов

Точность моделей Qwen2 в извлечении фактов из документов при различных длинах контекста и глубине документов.

Этот график показывает способность моделей Qwen2 извлекать факты из документов различных длин контекста и глубины.

Архитектурные инновации: Групповое внимание запроса и оптимизированные вложения

Под капотом Qwen2 включает в себя несколько архитектурных инноваций, которые способствуют его исключительной производительности. Одной из таких инноваций является принятие Группового внимания запроса (GQA) во всех размерах моделей. GQA предлагает более быстрые скорости вывода и снижение использования памяти, что делает Qwen2 более эффективным и доступным для более широкого диапазона конфигураций оборудования.

Кроме того, Alibaba оптимизировала вложения для более мелких моделей в серии Qwen2. Связывая вложения, команда смогла снизить потребление памяти этих моделей, что позволяет развертывать их на менее мощном оборудовании, сохраняя при этом высокое качество производительности.

Бенчмаркинг Qwen2: Обгоняя модели SOTA

Qwen2 демонстрирует замечательную производительность на широком диапазоне бенчмарков. Сравнительные оценки показывают, что Qwen2-72B, самая большая модель в серии, превосходит ведущих конкурентов, таких как Llama-3-70B, в критических областях, включая понимание естественного языка, приобретение знаний, навыки кодирования, математические способности и многоязычные возможности.

Графики, сравнивающие Qwen2-72B-Instruct и Llama3-70B-Instruct в кодировании на различных языках программирования и в математике на различных экзаменах

Qwen2-72B-Instruct против Llama3-70B-Instruct в кодировании и математике

Несмотря на то, что у него меньше параметров, чем у его предшественника Qwen1.5-110B, Qwen2-72B демонстрирует лучшую производительность, что является свидетельством эффективности тщательно отобранных наборов данных и оптимизированных методов обучения Alibaba.

Безопасность и ответственность: Согласование с человеческими ценностями

Qwen2-72B-Instruct был тщательно оценен на его способность обрабатывать потенциально вредные запросы, связанные с незаконной деятельностью, мошенничеством, порнографией и нарушением конфиденциальности. Результаты обнадеживающие: Qwen2-72B-Instruct работает сравнимо с высоко оцененной моделью GPT-4 в плане безопасности, демонстрируя значительно более низкие пропорции вредных ответов по сравнению с другими большими моделями, такими как Mistral-8x22B.

Это достижение подчеркивает приверженность Alibaba разработке систем ИИ, которые соответствуют человеческим ценностям, гарантируя, что Qwen2 не только мощный, но и заслуживающий доверия и ответственный.

Лицензирование и открытый исходный код

В шаге, который еще больше усиливает влияние Qwen2, Alibaba приняла подход открытого исходного кода к лицензированию. Хотя Qwen2-72B и его модели с инструкциями сохраняют исходную лицензию Qianwen, остальные модели – Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B и Qwen2-57B-A14B – были лицензированы под пермиссивной лицензией Apache 2.0.

Эта повышенная открытость, как ожидается, ускорит применение и коммерческое использование моделей Qwen2 во всем мире, способствуя сотрудничеству и инновациям в глобальном сообществе ИИ.

Использование и реализация

Использование моделей Qwen2 является простым благодаря их интеграции с популярными фреймворками, такими как Hugging Face. Вот пример использования Qwen2-7B-Chat-beta для вывода:

from transformers import AutoModelForCausalLM, AutoTokenizer

device = "cuda" # устройство, на которое загружается модель

model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen1.5-7B-Chat", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen1.5-7B-Chat")

prompt = "Дайте мне краткое введение в большие языковые модели."

messages = [{"role": "user", "content": prompt}]

text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)

model_inputs = tokenizer([text], return_tensors="pt").to(device)

generated_ids = model.generate(model_inputs.input_ids, max_new_tokens=512, do_sample=True)

generated_ids = [output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)

Этот фрагмент кода демонстрирует, как настроить и сгенерировать текст с помощью модели Qwen2-7B-Chat. Интеграция с Hugging Face делает его доступным и простым для экспериментов.

Qwen2 vs. Llama 3: Сравнительный анализ

Хотя Qwen2 и Llama 3 от Meta являются обоими мощными моделями языка, они демонстрируют разные сильные стороны и компромиссы.

График сравнения производительности Qwen2-72B, Llama3-70B, Mixtral-8x22B и Qwen1.5-110B на различных бенчмарках

Сравнительный график производительности Qwen2-72B, Llama3-70B, Mixtral-8x22B и Qwen1.5-110B на различных бенчмарках, включая MMLU, MMLU-Pro, GPQA и другие.

Вот сравнительный анализ, чтобы помочь вам понять их ключевые различия:

Многоязычные возможности: Qwen2 имеет явное преимущество в плане многоязычной поддержки. Его обучение на данных, охватывающих 27 дополнительных языков, помимо английского и китайского, позволяет Qwen2 превосходить в межкультурной коммуникации и многоязычных сценариях. Напротив, многоязычные возможности Llama 3 менее выражены, что потенциально ограничивает его эффективность в различных лингвистических контекстах.

Кодирование и математическая профессиональность: И Qwen2, и Llama 3 демонстрируют впечатляющие способности кодирования и математические способности. Однако Qwen2-72B-Instruct, кажется, имеет небольшое преимущество, благодаря его тщательному обучению на обширных высококачественных наборах данных в этих областях. Сосредоточение Alibaba на улучшении возможностей Qwen2 в этих областях может дать ему преимущество для специализированных приложений, включающих кодирование или математическое решение проблем.

Понимание длинного контекста: Модели Qwen2-7B-Instruct и Qwen2-72B-Instruct могут обрабатывать контексты длиной до 128K токенов. Эта функция особенно ценна для приложений, которые требуют глубокого понимания длинных документов или плотных технических материалов. Llama 3, хотя и способен обрабатывать длинные последовательности, может не соответствовать производительности Qwen2 в этой конкретной области.

Хотя обе Qwen2 и Llama 3 демонстрируют производительность на уровне SOTA, разнообразная линейка моделей Qwen2, варьирующаяся от 0,5B до 72B параметров, предлагает большую гибкость и масштабируемость. Эта универсальность позволяет пользователям выбирать размер модели, который лучше всего соответствует их вычислительным ресурсам и требованиям к производительности. Кроме того, продолжающиеся усилия Alibaba по масштабированию Qwen2 до более крупных моделей могут еще больше повысить его возможности, потенциально обгоняя Llama 3 в будущем.

Развертывание и интеграция: Упрощение принятия Qwen2

Чтобы облегчить широкое внедрение и интеграцию Qwen2, Alibaba предприняла активные шаги, чтобы обеспечить бесперебойное развертывание на различных платформах и фреймворках. Команда Qwen тесно сотрудничала с многочисленными сторонними проектами и организациями, что позволяет Qwen2 использоваться в сочетании с широким спектром инструментов и фреймворков.

Настройка и квантование: Сторонние проекты, такие как Axolotl, Llama-Factory, Firefly, Swift и XTuner, были оптимизированы для поддержки настройки моделей Qwen2, что позволяет пользователям адаптировать модели к их конкретным задачам и наборам данных. Кроме того, инструменты квантования, такие как AutoGPTQ, AutoAWQ и Neural Compressor, были адаптированы для работы с Qwen2, что облегчает эффективное развертывание на устройствах с ограниченными ресурсами.

Развертывание и вывод: Модели Qwen2 могут быть развернуты и обслужены с помощью различных фреймворков, включая vLLM, SGL, SkyPilot, TensorRT-LLM, OpenVino и TGI. Эти фреймворки предлагают оптимизированные конвейеры вывода, что обеспечивает эффективное и масштабируемое развертывание Qwen2 в производственных средах.

Платформы API и локальное выполнение: Для разработчиков, стремящихся интегрировать Qwen2 в свои приложения, платформы API, такие как Together, Fireworks и OpenRouter, предоставляют удобный доступ к возможностям моделей. Альтернативно, локальное выполнение поддерживается через фреймворки, такие как MLX, Llama.cpp, Ollama и LM Studio, что позволяет пользователям запускать Qwen2 на своих локальных машинах, сохраняя контроль над конфиденциальностью и безопасностью данных.

Фреймворки агентов и RAG: Поддержка Qwen2 для использования инструментов и возможностей агентов усиливается фреймворками, такими как LlamaIndex, CrewAI и OpenDevin. Эти фреймворки позволяют создавать специализированных агентов ИИ и интегрировать Qwen2 в конвейеры генерации с помощью извлечения (RAG), что расширяет диапазон приложений и случаев использования.

Взгляд в будущее: Будущие разработки и возможности

Видение Alibaba для Qwen2 выходит далеко за пределы текущего выпуска. Команда активно тренирует более крупные модели для изучения границ масштабирования моделей, дополненных продолжающимися усилиями по масштабированию данных. Кроме того, планируются шаги по расширению Qwen2 в область многомодального ИИ, что позволит интегрировать возможности понимания зрения и аудио.

По мере того, как экосистема открытого ИИ продолжает процветать, Qwen2 сыграет ключевую роль, служа мощным ресурсом для исследователей, разработчиков и организаций, стремящихся продвинуть состояние искусства в обработке естественного языка и искусственном интеллекте.

Aayush Mittal

Я провел последние пять лет, погружаясь в увлекательный мир Machine Learning и Deep Learning. Моя страсть и экспертиза привели меня к участию в более чем 50 различных проектах по разработке программного обеспечения, с особым акцентом на AI/ML. Мое непрекращающееся любопытство также привело меня к Natural Language Processing, области, которую я с нетерпением жду возможности изучить более подробно.