Inteligencia artificial

Qwen2 – El último modelo de lenguaje multilingüe de Alibaba desafía a SOTA como Llama 3

Published June 11, 2024

Updated April 27, 2026

Aayush Mittal Mittal

Después de meses de anticipación, el equipo de Qwen de Alibaba ha presentado finalmente Qwen2 – la próxima evolución de su poderosa serie de modelos de lenguaje. Qwen2 representa un salto significativo hacia adelante, con avances de vanguardia que podrían posicionarlo potencialmente como la mejor alternativa al modelo celebrado Llama 3 de Meta. En este análisis técnico detallado, exploraremos las características clave, las pruebas de rendimiento y las técnicas innovadoras que hacen de Qwen2 un contendiente formidable en el ámbito de los grandes modelos de lenguaje (LLM).

Escalando: Presentando la línea de modelos Qwen2

En el núcleo de Qwen2 se encuentra una línea de modelos diversa diseñada para satisfacer diversas demandas computacionales. La serie abarca cinco tamaños de modelos distintos: Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B y el modelo insignia Qwen2-72B. Esta gama de opciones se adapta a un amplio espectro de usuarios, desde aquellos con recursos de hardware modestos hasta aquellos con acceso a infraestructura computacional de vanguardia.

Una de las características destacadas de Qwen2 es su capacidad multilingüe. Mientras que el modelo Qwen1.5 anterior excelía en inglés y chino, Qwen2 ha sido entrenado con datos que abarcan 27 idiomas adicionales. Este régimen de entrenamiento multilingüe incluye idiomas de regiones diversas como Europa Occidental, Europa Oriental y Central, Oriente Medio, Asia Oriental y Asia Meridional.

Tabla que lista los idiomas compatibles con los modelos Qwen2, categorizados por regiones

Idiomas compatibles con los modelos Qwen2, categorizados por regiones geográficas

Al ampliar su repertorio lingüístico, Qwen2 demuestra una capacidad excepcional para comprender y generar contenido en una amplia gama de idiomas, lo que lo convierte en una herramienta invaluable para aplicaciones globales y comunicación intercultural.

Tabla que compara los modelos Qwen2 por parámetros, parámetros no de incrustación, GQA, incrustación de unión y longitud de contexto

Especificaciones de los modelos Qwen2, incluyendo parámetros, GQA y longitud de contexto.

Abordar el cambio de código: Un desafío multilingüe

En contextos multilingües, el fenómeno del cambio de código – la práctica de alternar entre diferentes idiomas dentro de una conversación o enunciado – es una ocurrencia común. Qwen2 ha sido entrenado meticulosamente para manejar escenarios de cambio de código, reduciendo significativamente los problemas asociados y asegurando transiciones suaves entre idiomas.

Las evaluaciones utilizando prompts que típicamente inducen el cambio de código han confirmado una mejora sustancial de Qwen2 en este dominio, lo que constituye un testimonio del compromiso de Alibaba con la entrega de un modelo de lenguaje verdaderamente multilingüe.

Excelencia en codificación y matemáticas

Qwen2 tiene capacidades notables en los dominios de la codificación y las matemáticas, áreas que han representado desafíos tradicionales para los modelos de lenguaje. Al aprovechar datasets de alta calidad y metodologías de entrenamiento optimizadas, Qwen2-72B-Instruct, la variante de instrucción del modelo insignia, exhibe un rendimiento sobresaliente en la resolución de problemas matemáticos y tareas de codificación en varios lenguajes de programación.

Ampliando la comprensión del contexto

Una de las características más impresionantes de Qwen2 es su capacidad para comprender y procesar secuencias de contexto extendidas. Mientras que la mayoría de los modelos de lenguaje luchan con textos de larga forma, los modelos Qwen2-7B-Instruct y Qwen2-72B-Instruct han sido diseñados para manejar longitudes de contexto de hasta 128K tokens.

Esta capacidad notable es un juego cambiatorio para aplicaciones que requieren una comprensión profunda de documentos largos, como contratos legales, artículos de investigación o manuales técnicos densos. Al procesar contextos extendidos de manera efectiva, Qwen2 puede proporcionar respuestas más precisas y completas, desbloqueando nuevos horizontes en el procesamiento del lenguaje natural.

Gráfico que muestra la precisión de recuperación de hechos de los modelos Qwen2 en documentos de varias longitudes de contexto y profundidad

Precisión de los modelos Qwen2 en la recuperación de hechos de documentos a través de diferentes longitudes de contexto y profundidad.

Este gráfico muestra la capacidad de los modelos Qwen2 para recuperar hechos de documentos de varias longitudes de contexto y profundidad.

Innovaciones arquitectónicas: Atención de consulta grupal y incrustaciones optimizadas

Bajo la superficie, Qwen2 incorpora varias innovaciones arquitectónicas que contribuyen a su rendimiento excepcional. Una de estas innovaciones es la adopción de Atención de Consulta Grupal (GQA) en todos los tamaños de modelo. GQA ofrece velocidades de inferencia más rápidas y un uso reducido de memoria, lo que hace que Qwen2 sea más eficiente y accesible a una gama más amplia de configuraciones de hardware.

Además, Alibaba ha optimizado las incrustaciones para los modelos más pequeños de la serie Qwen2. Al unir las incrustaciones, el equipo ha logrado reducir la huella de memoria de estos modelos, permitiendo su despliegue en hardware menos potente mientras se mantiene un rendimiento de alta calidad.

Benchmarkeando Qwen2: Superando a los modelos de vanguardia

Qwen2 tiene un rendimiento notable en una variedad de pruebas de benchmark. Las evaluaciones comparativas revelan que Qwen2-72B, el modelo más grande de la serie, supera a competidores líderes como Llama-3-70B en áreas críticas, incluyendo la comprensión del lenguaje natural, la adquisición de conocimiento, la habilidad para codificar, las habilidades matemáticas y las capacidades multilingües.

Gráficos que comparan Qwen2-72B-Instruct y Llama3-70B-Instruct en codificación en varios lenguajes de programación y en matemáticas en diferentes exámenes

Qwen2-72B-Instruct versus Llama3-70B-Instruct en rendimiento de codificación y matemáticas

A pesar de tener menos parámetros que su predecesor, Qwen1.5-110B, Qwen2-72B exhibe un rendimiento superior, lo que constituye un testimonio de la eficacia de los conjuntos de datos cuidadosamente curados por Alibaba y las metodologías de entrenamiento optimizadas.

Seguridad y responsabilidad: Alineándose con los valores humanos

Qwen2-72B-Instruct ha sido evaluado rigurosamente por su capacidad para manejar consultas potencialmente dañinas relacionadas con actividades ilegales, fraude, pornografía y violaciones de privacidad. Los resultados son alentadores: Qwen2-72B-Instruct se desempeña de manera comparable al modelo GPT-4 altamente valorado en términos de seguridad, exhibiendo proporciones significativamente más bajas de respuestas dañinas en comparación con otros modelos grandes como Mistral-8x22B.

Este logro subraya el compromiso de Alibaba con el desarrollo de sistemas de inteligencia artificial que se alineen con los valores humanos, asegurando que Qwen2 no solo sea poderoso sino también confiable y responsable.

Licencia y compromiso de código abierto

En un movimiento que amplifica aún más el impacto de Qwen2, Alibaba ha adoptado un enfoque de código abierto para la licencia. Mientras que Qwen2-72B y sus modelos de instrucción retienen la licencia Qianwen original, los modelos restantes – Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B y Qwen2-57B-A14B – han sido licenciados bajo la licencia Apache 2.0 permissiva.

Esta mayor apertura se espera que acelere la aplicación y el uso comercial de los modelos Qwen2 en todo el mundo, fomentando la colaboración y la innovación dentro de la comunidad global de inteligencia artificial.

Uso e implementación

El uso de los modelos Qwen2 es sencillo gracias a su integración con marcos populares como Hugging Face. Aquí hay un ejemplo de cómo utilizar Qwen2-7B-Chat-beta para inferencia:

from transformers import AutoModelForCausalLM, AutoTokenizer

device = "cuda" # el dispositivo en el que se carga el modelo

model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen1.5-7B-Chat", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen1.5-7B-Chat")

prompt = "Proporcióname una breve introducción a los grandes modelos de lenguaje."

messages = [{"role": "user", "content": prompt}]

text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)

model_inputs = tokenizer([text], return_tensors="pt").to(device)

generated_ids = model.generate(model_inputs.input_ids, max_new_tokens=512, do_sample=True)

generated_ids = [output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)

Este fragmento de código demuestra cómo configurar y generar texto utilizando el modelo Qwen2-7B-Chat. La integración con Hugging Face lo hace accesible y fácil de experimentar.

Qwen2 vs. Llama 3: Un análisis comparativo

Mientras que Qwen2 y Llama 3 de Meta son ambos modelos de lenguaje formidables, exhiben fortalezas y compensaciones distintas.

Gráfico de comparación de rendimiento de Qwen2-72B, Llama3-70B, Mixtral-8x22B y Qwen1.5-110B en varios benchmarks.

Aquí hay un análisis comparativo para ayudar a entender sus diferencias clave:

Capacidades multilingües: Qwen2 tiene una ventaja clara en términos de soporte multilingüe. Su entrenamiento con datos que abarcan 27 idiomas adicionales, más allá del inglés y el chino, permite que Qwen2 sobresalga en la comunicación intercultural y los escenarios multilingües. En contraste, las capacidades multilingües de Llama 3 son menos pronunciadas, lo que podría limitar su eficacia en contextos lingüísticos diversos.

Habilidad para codificar y matemáticas: Tanto Qwen2 como Llama 3 demuestran habilidades impresionantes para codificar y matemáticas. Sin embargo, Qwen2-72B-Instruct parece tener una ligera ventaja, gracias a su riguroso entrenamiento con conjuntos de datos extensos y de alta calidad en estos dominios. El enfoque de Alibaba en mejorar las capacidades de Qwen2 en estas áreas podría darle una ventaja para aplicaciones especializadas que involucran codificación o resolución de problemas matemáticos.

Comprensión de contexto largo: Los modelos Qwen2-7B-Instruct y Qwen2-72B-Instruct se destacan por su capacidad para manejar longitudes de contexto de hasta 128K tokens. Esta característica es particularmente valiosa para aplicaciones que requieren una comprensión profunda de documentos largos o materiales técnicos densos. Llama 3, aunque capaz de procesar secuencias largas, puede no igualar el rendimiento de Qwen2 en este área específica.

Mientras que ambos Qwen2 y Llama 3 exhiben un rendimiento de vanguardia, la línea de modelos diversa de Qwen2, que va desde 0.5B hasta 72B de parámetros, ofrece una mayor flexibilidad y escalabilidad. Esta versatilidad permite a los usuarios elegir el tamaño de modelo que mejor se adapte a sus recursos computacionales y requisitos de rendimiento. Además, los esfuerzos continuos de Alibaba para escalar Qwen2 a modelos más grandes podrían mejorar aún más sus capacidades, potencialmente superando a Llama 3 en el futuro.

Despliegue e integración: Facilitando la adopción de Qwen2

Para facilitar la adopción y la integración generalizada de Qwen2, Alibaba ha tomado medidas proactivas para garantizar un despliegue sin problemas en diversas plataformas y marcos. El equipo de Qwen ha colaborado estrechamente con numerosos proyectos y organizaciones de terceros, permitiendo que Qwen2 se utilice en conjunto con una amplia gama de herramientas y marcos.

Ajuste fino y cuantificación: Proyectos de terceros como Axolotl, Llama-Factory, Firefly, Swift y XTuner han sido optimizados para admitir el ajuste fino de los modelos Qwen2, permitiendo a los usuarios adaptar los modelos a sus tareas y conjuntos de datos específicos. Además, herramientas de cuantificación como AutoGPTQ, AutoAWQ y Neural Compressor han sido adaptadas para funcionar con Qwen2, facilitando su despliegue eficiente en dispositivos con recursos limitados.

Despliegue e inferencia: Los modelos Qwen2 se pueden desplegar y servir utilizando una variedad de marcos, incluyendo vLLM, SGL, SkyPilot, TensorRT-LLM, OpenVino y TGI. Estos marcos ofrecen tuberías de inferencia optimizadas, permitiendo un despliegue eficiente y escalable de Qwen2 en entornos de producción.

Plataformas de API y ejecución local: Para los desarrolladores que buscan integrar Qwen2 en sus aplicaciones, las plataformas de API como Together, Fireworks y OpenRouter proporcionan un acceso conveniente a las capacidades de los modelos. Alternativamente, la ejecución local es compatible a través de marcos como MLX, Llama.cpp, Ollama y LM Studio, lo que permite a los usuarios ejecutar Qwen2 en sus máquinas locales mientras mantienen el control sobre la privacidad y la seguridad de los datos.

Agentes y marcos RAG: El soporte de Qwen2 para el uso de herramientas y capacidades de agente se ve reforzado por marcos como LlamaIndex, CrewAI y OpenDevin. Estos marcos permiten la creación de agentes de inteligencia artificial especializados y la integración de Qwen2 en tuberías de generación reforzada por recuperación (RAG), ampliando el rango de aplicaciones y casos de uso.

Mirando hacia adelante: Desarrollos y oportunidades futuras

La visión de Alibaba para Qwen2 se extiende mucho más allá del lanzamiento actual. El equipo está entrenando activamente modelos más grandes para explorar las fronteras de la escalabilidad de los modelos, complementado por esfuerzos continuos de escalado de datos. Además, se están haciendo planes para extender Qwen2 al ámbito de la inteligencia artificial multimodal, permitiendo la integración de capacidades de comprensión visual y auditiva.

A medida que el ecosistema de inteligencia artificial de código abierto sigue prosperando, Qwen2 desempeñará un papel fundamental, sirviendo como un recurso poderoso para investigadores, desarrolladores y organizaciones que buscan avanzar en el estado del arte en el procesamiento del lenguaje natural y la inteligencia artificial.

Aayush Mittal

He pasado los últimos cinco años sumergiéndome en el fascinante mundo del Aprendizaje Automático y el Aprendizaje Profundo. Mi pasión y experiencia me han llevado a contribuir a más de 50 proyectos de ingeniería de software diversos, con un enfoque particular en AI/ML. Mi curiosidad continua también me ha llevado hacia el Procesamiento de Lenguaje Natural, un campo que estoy ansioso por explorar más a fondo.