Inteligência artificial

Qwen2 – O Modelo de Linguagem Multilíngue Mais Recente da Alibaba Desafia o SOTA como o Llama 3

Published June 11, 2024

Updated April 27, 2026

Aayush Mittal Mittal

Após meses de antecipação, a equipe Qwen da Alibaba finalmente revelou o Qwen2 – a próxima evolução de sua poderosa série de modelos de linguagem. O Qwen2 representa um salto significativo, com avanços de ponta que podem potencialmente posicioná-lo como a melhor alternativa ao modelo celebrado Llama 3 da Meta. Neste mergulho técnico, exploraremos os principais recursos, benchmarks de desempenho e técnicas inovadoras que tornam o Qwen2 um concorrente formidável no reino dos grandes modelos de linguagem (LLMs).

Escala: Apresentando a Linha de Modelos Qwen2

No núcleo do Qwen2 está uma linha diversificada de modelos projetados para atender a demandas computacionais variadas. A série abrange cinco tamanhos de modelo distintos: Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B e o modelo principal Qwen2-72B. Essa gama de opções atende a um amplo espectro de usuários, desde aqueles com recursos de hardware modestos até aqueles com acesso a infraestrutura computacional de ponta.

Uma das características destacadas do Qwen2 é sua capacidade multilíngue. Enquanto o modelo Qwen1.5 anterior excelia em inglês e chinês, o Qwen2 foi treinado em dados que abrangem 27 idiomas adicionais. Esse regime de treinamento multilíngue inclui idiomas de regiões diversas, como Europa Ocidental, Europa Oriental e Central, Oriente Médio, Ásia Oriental e Ásia Meridional.

Tabela listando os idiomas suportados pelos modelos Qwen2, categorizados por regiões

Idiomas suportados pelos modelos Qwen2, categorizados por regiões geográficas

Ao expandir seu repertório linguístico, o Qwen2 demonstra uma capacidade excepcional de compreender e gerar conteúdo em uma ampla gama de idiomas, tornando-o uma ferramenta inestimável para aplicações globais e comunicação intercultural.

Tabela comparando os modelos Qwen2 por parâmetros, parâmetros não de incorporação, GQA, incorporação de ligação e comprimento de contexto

Especificações dos Modelos Qwen2, incluindo parâmetros, GQA e comprimento de contexto.

Abordando a Comutação de Código: Um Desafio Multilíngue

Em contextos multilíngues, o fenômeno da comutação de código – a prática de alternar entre diferentes idiomas dentro de uma conversa ou expressão única – é uma ocorrência comum. O Qwen2 foi treinado meticulosamente para lidar com cenários de comutação de código, reduzindo significativamente os problemas associados e garantindo transições suaves entre os idiomas.

Avaliações usando prompts que normalmente induzem a comutação de código confirmaram a melhoria substancial do Qwen2 nesse domínio, um testemunho do compromisso da Alibaba em entregar um modelo de linguagem verdadeiramente multilíngue.

Excelendo em Codificação e Matemática

O Qwen2 tem capacidades notáveis nos domínios de codificação e matemática, áreas que tradicionalmente apresentaram desafios para os modelos de linguagem. Ao aproveitar conjuntos de dados de alta qualidade e metodologias de treinamento otimizadas, o Qwen2-72B-Instruct, a variante de treinamento de instruções do modelo principal, exibe um desempenho excepcional na resolução de problemas matemáticos e tarefas de codificação em várias linguagens de programação.

Ampliando a Compreensão do Contexto

Uma das características mais impressionantes do Qwen2 é sua capacidade de compreender e processar sequências de contexto estendidas. Enquanto a maioria dos modelos de linguagem luta com textos de longa forma, os modelos Qwen2-7B-Instruct e Qwen2-72B-Instruct foram projetados para lidar com comprimentos de contexto de até 128K tokens.

Essa capacidade notável é um divisor de águas para aplicações que exigem uma compreensão aprofundada de documentos longos, como contratos legais, artigos de pesquisa ou manuais técnicos densos. Ao processar contextos estendidos de forma eficaz, o Qwen2 pode fornecer respostas mais precisas e abrangentes, desbloqueando novas fronteiras no processamento de linguagem natural.

Gráfico mostrando a precisão de recuperação de fatos dos modelos Qwen2 em diferentes comprimentos de contexto e profundidades de documento

Precisão dos modelos Qwen2 na recuperação de fatos de documentos em diferentes comprimentos de contexto e profundidades.

Esse gráfico mostra a capacidade dos modelos Qwen2 de recuperar fatos de documentos de vários comprimentos de contexto e profundidades.

Inovações Arquiteturais: Atenção de Consulta em Grupo e Incorporações Otimizadas

Por trás das cenas, o Qwen2 incorpora várias inovações arquiteturais que contribuem para seu desempenho excepcional. Uma dessas inovações é a adoção da Atenção de Consulta em Grupo (GQA) em todos os tamanhos de modelo. A GQA oferece velocidades de inferência mais rápidas e uso reduzido de memória, tornando o Qwen2 mais eficiente e acessível a uma gama mais ampla de configurações de hardware.

Além disso, a Alibaba otimizou as incorporações para os modelos menores da série Qwen2. Ao vincular as incorporações, a equipe conseguiu reduzir a pegada de memória desses modelos, permitindo seu deploy em hardware menos poderoso enquanto mantém um desempenho de alta qualidade.

Benchmarks do Qwen2: Superando Modelos de Estado da Arte

O Qwen2 tem um desempenho notável em uma variedade de benchmarks. Avaliações comparativas revelam que o Qwen2-72B, o maior modelo da série, supera concorrentes líderes como o Llama-3-70B em áreas críticas, incluindo compreensão de linguagem natural, aquisição de conhecimento, proficiência em codificação, habilidades matemáticas e capacidades multilíngues.

Gráficos comparando Qwen2-72B-Instruct e Llama3-70B-Instruct em codificação em várias linguagens de programação e em matemática em diferentes exames

Qwen2-72B-Instruct versus Llama3-70B-Instruct em desempenho de codificação e matemática

Apesar de ter menos parâmetros do que seu antecessor, o Qwen1.5-110B, o Qwen2-72B exibe um desempenho superior, um testemunho da eficácia dos conjuntos de dados meticulosamente curados da Alibaba e das metodologias de treinamento otimizadas.

Segurança e Responsabilidade: Alinhando com Valores Humanos

O Qwen2-72B-Instruct foi rigorosamente avaliado por sua capacidade de lidar com consultas potencialmente prejudiciais relacionadas a atividades ilegais, fraude, pornografia e violações de privacidade. Os resultados são encorajadores: o Qwen2-72B-Instruct se sai comparavelmente ao modelo GPT-4 altamente respeitado em termos de segurança, exibindo proporções significativamente menores de respostas prejudiciais em comparação com outros grandes modelos como o Mistral-8x22B.

Essa conquista destaca o compromisso da Alibaba em desenvolver sistemas de IA que se alinham com valores humanos, garantindo que o Qwen2 não seja apenas poderoso, mas também confiável e responsável.

Licenciamento e Compromisso com Código Aberto

Em uma movimentação que amplifica ainda mais o impacto do Qwen2, a Alibaba adotou uma abordagem de código aberto para licenciamento. Enquanto o Qwen2-72B e seus modelos de treinamento de instruções retêm a licença Qianwen original, os modelos restantes – Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B e Qwen2-57B-A14B – foram licenciados sob a licença Apache 2.0 permissiva.

Essa abertura aprimorada deve acelerar a aplicação e o uso comercial dos modelos Qwen2 em todo o mundo, fomentando a colaboração e a inovação dentro da comunidade global de IA.

Uso e Implementação

Usar os modelos Qwen2 é direto, graças à sua integração com frameworks populares como Hugging Face. Aqui está um exemplo de uso do Qwen2-7B-Chat-beta para inferência:

from transformers import AutoModelForCausalLM, AutoTokenizer

device = "cuda" # o dispositivo para carregar o modelo

model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen1.5-7B-Chat", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen1.5-7B-Chat")

prompt = "Forneça uma breve introdução aos grandes modelos de linguagem."

messages = [{"role": "user", "content": prompt}]

text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)

model_inputs = tokenizer([text], return_tensors="pt").to(device)

generated_ids = model.generate(model_inputs.input_ids, max_new_tokens=512, do_sample=True)

generated_ids = [output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)

Esse trecho de código demonstra como configurar e gerar texto usando o modelo Qwen2-7B-Chat. A integração com Hugging Face torna-o acessível e fácil de experimentar.

Qwen2 vs. Llama 3: Uma Análise Comparativa

Enquanto o Qwen2 e o Llama 3 da Meta são ambos modelos de linguagem formidáveis, eles exibem forças e compensações distintas.

Gráfico de comparação de desempenho do Qwen2-72B, Llama3-70B, Mixtral-8x22B e Qwen1.5-110B em vários benchmarks, incluindo MMLU, MMLU-Pro, GPQA e outros.

Aqui está uma análise comparativa para ajudá-lo a entender suas principais diferenças:

Capacidades Multilíngues: O Qwen2 tem uma vantagem clara em termos de suporte multilíngue. Seu treinamento em dados que abrangem 27 idiomas adicionais, além do inglês e do chinês, permite que o Qwen2 se destaque na comunicação intercultural e em cenários multilíngues. Em contraste, as capacidades multilíngues do Llama 3 são menos pronunciadas, potencialmente limitando sua eficácia em contextos linguísticos diversos.

Proficiência em Codificação e Matemática: Tanto o Qwen2 quanto o Llama 3 demonstram habilidades impressionantes em codificação e matemática. No entanto, o Qwen2-72B-Instruct parece ter uma leve vantagem, devido ao seu treinamento rigoroso em conjuntos de dados extensos e de alta qualidade nesses domínios. O foco da Alibaba em aprimorar as capacidades do Qwen2 nesses áreas pode dar-lhe uma vantagem para aplicações especializadas que envolvem codificação ou resolução de problemas matemáticos.

Compreensão de Contexto Longo: Os modelos Qwen2-7B-Instruct e Qwen2-72B-Instruct se destacam por sua capacidade de lidar com sequências de contexto de até 128K tokens. Essa característica é particularmente valiosa para aplicações que exigem uma compreensão aprofundada de documentos longos ou materiais técnicos densos. O Llama 3, embora capaz de processar sequências longas, pode não igualar o desempenho do Qwen2 nessa área específica.

Embora ambos o Qwen2 e o Llama 3 exibam desempenho de estado da arte, a linha diversificada de modelos do Qwen2, variando de 0,5B a 72B de parâmetros, oferece maior flexibilidade e escalabilidade. Essa versatilidade permite que os usuários escolham o tamanho do modelo que melhor atenda aos seus recursos computacionais e requisitos de desempenho. Além disso, os esforços contínuos da Alibaba para escalar o Qwen2 para modelos maiores podem aprimorar ainda mais suas capacidades, potencialmente superando o Llama 3 no futuro.

Implantação e Integração: Facilitando a Adoção do Qwen2

Para facilitar a adoção e integração generalizada do Qwen2, a Alibaba tomou medidas proativas para garantir a implantação sem problemas em várias plataformas e frameworks. A equipe Qwen colaborou estreitamente com numerosos projetos e organizações de terceiros, permitindo que o Qwen2 seja utilizado em conjunto com uma ampla gama de ferramentas e frameworks.

Ajuste Fino e Quantização: Projetos de terceiros, como Axolotl, Llama-Factory, Firefly, Swift e XTuner, foram otimizados para suportar o ajuste fino dos modelos Qwen2, permitindo que os usuários os personalizem para suas tarefas e conjuntos de dados específicos. Além disso, ferramentas de quantização como AutoGPTQ, AutoAWQ e Neural Compressor foram adaptadas para funcionar com o Qwen2, facilitando a implantação eficiente em dispositivos com recursos limitados.

Implantação e Inferência: Os modelos Qwen2 podem ser implantados e servidos usando uma variedade de frameworks, incluindo vLLM, SGL, SkyPilot, TensorRT-LLM, OpenVino e TGI. Esses frameworks oferecem pipelines de inferência otimizados, permitindo a implantação eficiente e escalável do Qwen2 em ambientes de produção.

Plataformas de API e Execução Local: Para desenvolvedores que buscam integrar o Qwen2 em suas aplicações, plataformas de API como Together, Fireworks e OpenRouter fornecem acesso conveniente às capacidades dos modelos. Alternativamente, a execução local é suportada por frameworks como MLX, Llama.cpp, Ollama e LM Studio, permitindo que os usuários executem o Qwen2 em suas máquinas locais enquanto mantêm o controle sobre a privacidade e segurança dos dados.

Frameworks de Agente e RAG: O suporte do Qwen2 ao uso de ferramentas e capacidades de agente é reforçado por frameworks como LlamaIndex, CrewAI e OpenDevin. Esses frameworks permitem a criação de agentes de IA especializados e a integração do Qwen2 em pipelines de geração aumentada por recuperação (RAG), expandindo a gama de aplicações e casos de uso.

Olhando para o Futuro: Desenvolvimentos Futuros e Oportunidades

A visão da Alibaba para o Qwen2 se estende muito além do lançamento atual. A equipe está ativamente treinando modelos maiores para explorar as fronteiras do escalonamento de modelos, complementado por esforços contínuos de escalonamento de dados. Além disso, planos estão em andamento para estender o Qwen2 ao reino da IA multimodal, permitindo a integração de capacidades de compreensão de visão e áudio.

À medida que o ecossistema de código aberto de IA continua a prosperar, o Qwen2 desempenhará um papel fundamental, servindo como um recurso poderoso para pesquisadores, desenvolvedores e organizações que buscam avançar o estado da arte no processamento de linguagem natural e inteligência artificial.

Aayush Mittal

Eu passei os últimos cinco anos me imergindo no fascinante mundo de Aprendizado de Máquina e Aprendizado Profundo. Minha paixão e especialização me levaram a contribuir para mais de 50 projetos diversificados de engenharia de software, com um foco particular em IA/ML. Minha curiosidade contínua também me atraiu para o Processamento de Linguagem Natural, um campo que estou ansioso para explorar mais.