Inteligencia artificial

Presentación de Meta Llama 3: un salto adelante en modelos de lenguaje grandes

Actualizado on Abril 21, 2024

En el campo de la IA generativa, Meta continúa liderando con su compromiso con la disponibilidad de código abierto, distribuyendo su serie avanzada Large Language Model Meta AI (Llama) a nivel mundial para desarrolladores e investigadores. Aprovechando sus iniciativas progresistas, Meta presentó recientemente la tercera versión de esta serie, llamas 3. Esta nueva edición mejora significativamente llamas 2, ofreciendo numerosas mejoras y estableciendo puntos de referencia que desafían a competidores de la industria como Google, Mistral y Anthropic. Este artículo explora los avances significativos de Llama 3 y cómo se compara con su predecesor, Llama 2.

Serie Llama de Meta: del acceso exclusivo al acceso abierto y al rendimiento mejorado

Meta inició su serie Llama en 2022 con el lanzamiento de llamas 1, un modelo limitado al uso no comercial y accesible solo para instituciones de investigación seleccionadas debido a las inmensas demandas computacionales y la naturaleza patentada que caracterizaban a los LLM de vanguardia en ese momento. En 2023, con el lanzamiento de Llama 2, Meta AI giró hacia una mayor apertura, ofreciendo el modelo libremente tanto para fines comerciales como de investigación. Esta medida fue diseñada para democratizar el acceso a tecnologías sofisticadas de IA generativa, permitiendo a una gama más amplia de usuarios, incluidas nuevas empresas y equipos de investigación más pequeños, innovar y desarrollar aplicaciones sin los elevados costos típicamente asociados con los modelos a gran escala. Continuando con esta tendencia hacia la apertura, Meta presentó Llama 3, que se enfoca en mejorar el rendimiento de modelos más pequeños en varios puntos de referencia industriales.

Presentamos Llama 3

Llama 3 es la segunda generación de modelos de lenguaje grande (LLM) de código abierto de Meta, que presenta modelos previamente entrenados y ajustados con instrucciones con parámetros 8B y 70B. Al igual que sus predecesores, Llama 3 utiliza un solo decodificador arquitectura del transformador y continúa la práctica de autorregresivo, entrenamiento auto supervisado para predecir tokens posteriores en secuencias de texto. Llama 3 está previamente entrenado en un conjunto de datos que es siete veces mayor que el utilizado para Llama 2, con más de 15 billones de tokens extraídos de una combinación recientemente seleccionada de datos en línea disponibles públicamente. Este vasto conjunto de datos se procesa mediante dos clústeres equipados con 24,000 GPU. Para mantener la alta calidad de estos datos de entrenamiento, una variedad de IA centrada en datos Se emplearon técnicas, incluidos filtros heurísticos y NSFW, deduplicación semánticay clasificación de la calidad del texto. Diseñado para aplicaciones de diálogo, el modelo Llama 3 Instruct se ha mejorado significativamente, incorporando más de 10 millones de muestras de datos anotadas por humanos y aprovechando una combinación sofisticada de métodos de entrenamiento como ajuste supervisado (SFT), muestreo de rechazo, optimización de políticas próximas (PPO)y optimización de políticas directas (DPO).

Llama 3 vs. Llama 2: mejoras clave

Llama 3 trae varias mejoras con respecto a Llama 2, aumentando significativamente su funcionalidad y rendimiento:

Vocabulario ampliado: Llama 3 ha aumentado su vocabulario a 128,256 tokens, frente a los 2 tokens de Llama 32,000. Esta mejora admite una codificación de texto más eficiente tanto para entradas como para salidas y fortalece sus capacidades multilingües.
Longitud del contexto extendido: Los modelos Llama 3 proporcionan una longitud de contexto de 8,000 tokens, duplicando los 4,090 tokens admitidos por Llama 2. Este aumento permite un manejo de contenido más extenso, que abarca tanto las indicaciones del usuario como las respuestas del modelo.
Datos de entrenamiento actualizados: El conjunto de datos de entrenamiento para Llama 3 es siete veces mayor que el de Llama 2, e incluye cuatro veces más código. Contiene más del 5 % de datos de alta calidad que no están en inglés y que abarcan más de 30 idiomas, lo cual es crucial para el soporte de aplicaciones multilingües. Estos datos se someten a un riguroso control de calidad utilizando técnicas avanzadas como filtros heurísticos y NSFW, deduplicación semántica y clasificadores de texto.
Instrucción refinada, ajuste y evaluación: A diferencia de Llama 2, Llama 3 utiliza técnicas avanzadas de ajuste de instrucciones, incluido el ajuste fino supervisado (SFT), muestreo de rechazo, optimización de políticas próximas (PPO) y optimización de políticas directas (DPO). Para aumentar este proceso, se ha introducido un nuevo conjunto de evaluación humana de alta calidad, que consta de 1,800 indicaciones que cubren diversos casos de uso, como asesoramiento, lluvia de ideas, clasificación, codificación y más, lo que garantiza una evaluación integral y un ajuste fino de las capacidades del modelo.
Seguridad avanzada de IA: Llama 3, al igual que Llama 2, incorpora estrictas medidas de seguridad, como ajuste de instrucciones y formación de equipos rojos integrales para mitigar los riesgos, especialmente en áreas críticas como la ciberseguridad y las amenazas biológicas. En apoyo de estos esfuerzos, Meta también ha introducido Llama Guard 2, perfeccionado en la versión 8B de Llama 3. Este nuevo modelo mejora la Serie Guardia Llama clasificando las entradas y respuestas de LLM para identificar contenido potencialmente inseguro, lo que lo hace ideal para entornos de producción.

Disponibilidad de Llama 3

Los modelos Llama 3 ahora están integrados en el Ecosistema de Hugging Face, mejorando la accesibilidad para los desarrolladores. Los modelos también están disponibles a través de plataformas de modelo como servicio como Laboratorios de perplejidad y Fuegos artificiales.aiy en plataformas en la nube como Creador de salvia de AWS, Aprendizaje automático de Azurey IA de vértice. Meta planea ampliar aún más la disponibilidad de Llama 3, incluidas plataformas como Google Cloud, Kaggle, IBM WatsonX, NVIDIA NIM y Snowflake. Además, el soporte de hardware para Llama 3 se ampliará para incluir plataformas de AMD, AWS, Dell, Intel, NVIDIA y Qualcomm.

Próximas mejoras en Llama 3

Meta ha revelado que el lanzamiento actual de Llama 3 es simplemente la fase inicial de su visión más amplia para la versión completa de Llama 3. Están desarrollando un modelo avanzado con más de 400 mil millones de parámetros que introducirá nuevas características, incluida la multimodalidad y la capacidad de manejar múltiples idiomas. Esta versión mejorada también contará con una ventana de contexto significativamente ampliada y capacidades de rendimiento general mejoradas.

Lo más importante es...

Llama 3 de Meta marca una evolución significativa en el panorama de los grandes modelos de lenguaje, impulsando a la serie no solo hacia una mayor accesibilidad de código abierto sino también mejorando sustancialmente sus capacidades de rendimiento. Con un conjunto de datos de entrenamiento siete veces mayor que su predecesor y características como vocabulario ampliado y mayor longitud del contexto, Llama 3 establece nuevos puntos de referencia que desafían incluso a los competidores más fuertes de la industria.

Esta tercera iteración no sólo continúa democratizando la tecnología de IA al poner capacidades de alto nivel a disposición de un espectro más amplio de desarrolladores, sino que también introduce avances significativos en seguridad y precisión del entrenamiento. Al integrar estos modelos en plataformas como Hugging Face y ampliar la disponibilidad a través de los principales servicios en la nube, Meta garantiza que Llama 3 sea tan ubicuo como poderoso.

De cara al futuro, el desarrollo continuo de Meta promete capacidades aún más sólidas, incluida la multimodalidad y el soporte de idiomas ampliado, preparando el escenario para que Llama 3 no solo compita sino que potencialmente supere a otros modelos importantes de IA en el mercado. Llama 3 es un testimonio del compromiso de Meta de liderar la revolución de la IA, proporcionando herramientas que no sólo son más accesibles sino también significativamente más avanzadas y seguras para una base de usuarios global.

Temas relacionados:Llama llamas 3 Llama de Meta 3

Hasta la próxima

FrugalGPT: un cambio de paradigma en la optimización de costos para modelos de lenguaje grandes

No Te Lo

Las 10 principales conclusiones del informe del índice de IA 2024 de Stanford

Dra. Tehseen Zia

El Dr. Tehseen Zia es profesor asociado titular en la Universidad COMSATS de Islamabad y tiene un doctorado en IA de la Universidad Tecnológica de Viena (Austria). Especializado en Inteligencia Artificial, Aprendizaje Automático, Ciencia de Datos y Visión por Computador, ha realizado importantes contribuciones con publicaciones en revistas científicas de renombre. El Dr. Tehseen también dirigió varios proyectos industriales como investigador principal y se desempeñó como consultor de IA.