Inteligencia artificial
Desvelando Meta Llama 3: Un salto adelante en los modelos de lenguaje grande
En el campo de la inteligencia artificial generativa, Meta continúa liderando con su compromiso de disponibilidad de código abierto, distribuyendo su avanzado Modelo de Lenguaje Grande Meta AI (Llama) serie a desarrolladores y investigadores en todo el mundo. Basándose en sus iniciativas progresivas, Meta introdujo recientemente la tercera iteración de esta serie, Llama 3. Esta nueva edición mejora significativamente a Llama 2, ofreciendo numerosas mejoras y estableciendo estándares que desafían a los competidores de la industria como Google, Mistral y Anthropic. Este artículo explora los avances significativos de Llama 3 y cómo se compara con su predecesor, Llama 2.
La serie Llama de Meta: De acceso exclusivo a acceso abierto y rendimiento mejorado
Meta inició su serie Llama en 2022 con el lanzamiento de Llama 1, un modelo limitado a uso no comercial y accesible solo a instituciones de investigación seleccionadas debido a las enormes demandas computacionales y la naturaleza proprietaria que caracterizaba a los LLM de vanguardia en ese momento. En 2023, con la presentación de Llama 2, Meta AI se movió hacia una mayor apertura, ofreciendo el modelo de forma gratuita para fines de investigación y comerciales. Este movimiento estaba diseñado para democratizar el acceso a tecnologías de inteligencia artificial generativa sofisticadas, permitiendo que una amplia gama de usuarios, incluidos startups y equipos de investigación más pequeños, innoven y desarrollen aplicaciones sin los costos elevados típicamente asociados con modelos a gran escala. Continuando esta tendencia hacia la apertura, Meta ha introducido Llama 3, que se centra en mejorar el rendimiento de los modelos más pequeños en varios benchmarks industriales.
Presentando Llama 3
Llama 3 es la segunda generación de los modelos de lenguaje grande de código abierto de Meta, con modelos preentrenados y afinados con instrucciones de 8B y 70B parámetros. En línea con sus predecesores, Llama 3 utiliza una arquitectura de transformador solo decodificador y continúa la práctica de entrenamiento autoregresivo, auto-supervisado para predecir tokens subsiguientes en secuencias de texto. Llama 3 se preentrena en un conjunto de datos que es siete veces más grande que el utilizado para Llama 2, con más de 15 billones de tokens extraídos de una mezcla recién curada de datos en línea disponibles públicamente. Este vasto conjunto de datos se procesa utilizando dos clústeres equipados con 24,000 GPUs. Para mantener la alta calidad de estos datos de entrenamiento, se emplean diversas técnicas de inteligencia artificial centradas en los datos, incluidos filtros heurísticos y NSFW, deduplicación semántica y clasificación de calidad de texto. Diseñado para aplicaciones de diálogo, el modelo Instruct de Llama 3 ha sido significativamente mejorado, incorporando más de 10 millones de muestras de datos anotadas por humanos y aprovechando una sofisticada mezcla de métodos de entrenamiento como afinación supervisada (SFT), muestreo de rechazo, optimización de política proximal (PPO) y optimización de política directa (DPO).
Llama 3 vs. Llama 2: Mejoras clave
Llama 3 ofrece varias mejoras sobre Llama 2, mejorando significativamente su funcionalidad y rendimiento:
- Vocabulario expandido: Llama 3 ha aumentado su vocabulario a 128,256 tokens, desde los 32,000 tokens de Llama 2. Esta mejora admite una codificación de texto más eficiente tanto para entradas como para salidas y fortalece sus capacidades multilingües.
- Longitud de contexto extendida: Los modelos Llama 3 ofrecen una longitud de contexto de 8,000 tokens, duplicando los 4,090 tokens admitidos por Llama 2. Este aumento permite un manejo de contenido más extenso, abarcando tanto las solicitudes de los usuarios como las respuestas del modelo.
- Datos de entrenamiento mejorados: El conjunto de datos de entrenamiento para Llama 3 es siete veces más grande que el de Llama 2, incluyendo cuatro veces más código. Contiene más del 5% de datos de alta calidad, no en inglés, que abarcan más de 30 idiomas, lo cual es crucial para el soporte de aplicaciones multilingües. Estos datos se someten a un control de calidad riguroso utilizando técnicas avanzadas como filtros heurísticos y NSFW, deduplicación semántica y clasificadores de texto.
- Afinación de instrucciones y evaluación refinadas: A diferencia de Llama 2, Llama 3 utiliza técnicas de afinación de instrucciones avanzadas, incluyendo afinación supervisada (SFT), muestreo de rechazo, optimización de política proximal (PPO) y optimización de política directa (DPO). Para complementar este proceso, se ha introducido un nuevo conjunto de evaluación de alta calidad, que consiste en 1,800 solicitudes que cubren diversos casos de uso como asesoramiento, lluvia de ideas, clasificación, codificación y más, garantizando una evaluación y afinación comprehensiva de las capacidades del modelo.
- Seguridad de inteligencia artificial avanzada: Llama 3, al igual que Llama 2, incorpora estrictas medidas de seguridad como la afinación de instrucciones y el contraste exhaustivo para mitigar riesgos, especialmente en áreas críticas como la ciberseguridad y las amenazas biológicas. En apoyo a estos esfuerzos, Meta también ha introducido Llama Guard 2, afinado en la versión de 8B de Llama 3. Este nuevo modelo mejora la serie Llama Guard al clasificar las entradas y salidas de LLM para identificar contenido potencialmente inseguro, lo que lo hace ideal para entornos de producción.
Disponibilidad de Llama 3
Los modelos Llama 3 ahora se integran en el ecosistema Hugging Face, mejorando la accesibilidad para los desarrolladores. Los modelos también están disponibles a través de plataformas de modelo como servicio como Perplexity Labs y Fireworks.ai, y en plataformas en la nube como AWS SageMaker, Azure ML y Vertex AI. Meta planea ampliar aún más la disponibilidad de Llama 3, incluyendo plataformas como Google Cloud, Kaggle, IBM WatsonX, NVIDIA NIM y Snowflake. Además, el soporte de hardware para Llama 3 se extenderá para incluir plataformas de AMD, AWS, Dell, Intel, NVIDIA y Qualcomm.
Mejoras futuras en Llama 3
Meta ha revelado que la versión actual de Llama 3 es solo la primera fase en su visión más amplia para la versión completa de Llama 3. Están desarrollando un modelo avanzado con más de 400 mil millones de parámetros que introducirá nuevas características, incluyendo multimodalidad y la capacidad de manejar múltiples idiomas. Esta versión mejorada también contará con una ventana de contexto significativamente extendida y mejorará las capacidades de rendimiento en general.
En resumen
Llama 3 de Meta marca una evolución significativa en el panorama de los modelos de lenguaje grande, impulsando la serie no solo hacia una mayor accesibilidad de código abierto, sino también mejorando sustancialmente sus capacidades de rendimiento. Con un conjunto de datos de entrenamiento siete veces más grande que su predecesor y características como vocabulario expandido y longitud de contexto aumentada, Llama 3 establece nuevos estándares que desafían incluso a los competidores más fuertes de la industria.
Esta tercera iteración no solo continúa democratizando la tecnología de inteligencia artificial al hacer que las capacidades de alto nivel estén disponibles para un espectro más amplio de desarrolladores, sino que también introduce avances significativos en seguridad y precisión de entrenamiento. Al integrar estos modelos en plataformas como Hugging Face y extendiendo la disponibilidad a través de importantes servicios en la nube, Meta asegura que Llama 3 sea tan ubicuo como poderoso.
Mirando hacia adelante, el desarrollo continuo de Meta promete capacidades aún más robustas, incluyendo multimodalidad y soporte de idiomas extendido, sentando las bases para que Llama 3 no solo compita con, sino que potencialmente supere a otros modelos de inteligencia artificial importantes en el mercado. Llama 3 es un testimonio del compromiso de Meta para liderar la revolución de la inteligencia artificial, proporcionando herramientas que no solo son más accesibles, sino también significativamente más avanzadas y seguras para una base de usuarios global.






