Inteligencia artificial

Todo lo que necesitas saber sobre Llama 3 | El modelo de código abierto más potente hasta el momento | Conceptos de uso

Actualizado on Abril 24, 2024

Meta Llama 3 de código abierto LLM SUPERA A GPT 4

Meta ha lanzado recientemente llamas 3, la próxima generación de su modelo de lenguaje grande (LLM) de código abierto de última generación. Construyendo sobre las bases establecidas por su predecesor, Llama 3 tiene como objetivo mejorar las capacidades que posicionaron a Llama 2 como un importante competidor de código abierto para ChatGPT, como se describe en la revisión exhaustiva del artículo. Llama 2: una inmersión profunda en el desafío de código abierto de ChatGPT.

En este artículo discutiremos los conceptos centrales detrás de Llama 3, exploraremos su arquitectura innovadora y su proceso de capacitación, y brindaremos orientación práctica sobre cómo acceder, usar e implementar este modelo innovador de manera responsable. Si eres investigador, desarrollador o entusiasta de la IA, esta publicación te brindará el conocimiento y los recursos necesarios para aprovechar el poder de Llama 3 para tus proyectos y aplicaciones.

La evolución de Llama: de Llama 2 a Llama 3

El director ejecutivo de Meta, Mark Zuckerberg, anunció el debut de Llama 3, el último modelo de IA desarrollado por Meta AI. Este modelo de última generación, ahora de código abierto, está destinado a mejorar los diversos productos de Meta, incluidos Messenger e Instagram. Zuckerberg destacó que Llama 3 posiciona a Meta AI como la más avanzada asistente de IA disponible gratuitamente.

Antes de hablar sobre los detalles de Llama 3, revisemos brevemente su predecesor, Llama 2. Presentado en 2022, Llama 2 fue un hito importante en el panorama LLM de código abierto, ya que ofrece un modelo potente y eficiente que podría ejecutarse en hardware de consumo. .

Sin embargo, si bien Llama 2 fue un logro notable, tuvo sus limitaciones. Los usuarios informaron problemas con rechazos falsos (el modelo se niega a responder preguntas benignas), utilidad limitada y margen de mejora en áreas como el razonamiento y la generación de código.

Ingrese Llama 3: la respuesta de Meta a estos desafíos y los comentarios de la comunidad. Con Llama 3, Meta se ha propuesto crear los mejores modelos de código abierto a la par de los principales modelos propietarios disponibles en la actualidad, al mismo tiempo que prioriza las prácticas responsables de desarrollo e implementación.

Llama 3: Arquitectura y Formación

Una de las innovaciones clave en Llama 3 es su tokenizador, que presenta un vocabulario significativamente ampliado de Tokens 128,256 (frente a 32,000 en Llama 2). Este vocabulario más amplio permite una codificación más eficiente del texto, tanto para la entrada como para la salida, lo que potencialmente conduce a un multilingüismo más fuerte y a mejoras generales en el rendimiento.

Llama 3 también incorpora Atención de consultas agrupadas (GQA), una técnica de representación eficiente que mejora la escalabilidad y ayuda al modelo a manejar contextos más largos de manera más efectiva. El 8B La versión de Llama 3 utiliza GQA, mientras que tanto el 8B y 70B Los modelos pueden procesar secuencias de hasta Tokens 8,192.

Datos de entrenamiento y escalamiento

Los datos de entrenamiento utilizados para Llama 3 son un factor crucial en su rendimiento mejorado. Meta seleccionó un conjunto de datos masivo de más 15 billones tokens de fuentes en línea disponibles públicamente, siete veces más grande que el conjunto de datos utilizado para Llama 2. Este conjunto de datos también incluye una porción significativa (más del 5%) de datos de alta calidad en idiomas distintos del inglés, que cubren más de 30 idiomas., en preparación para futuras aplicaciones multilingües.

Para garantizar la calidad de los datos, Meta empleó técnicas de filtrado avanzadas, incluidos filtros heurísticos, filtros NSFW, deduplicación semántica y clasificadores de texto entrenados en Llama 2 para predecir la calidad de los datos. El equipo también llevó a cabo extensos experimentos para determinar la combinación óptima de fuentes de datos para el entrenamiento previo, asegurando que Llama 3 funcione bien en una amplia gama de casos de uso, incluidos trivia, STEM, codificación y conocimiento histórico.

Ampliar el entrenamiento previo fue otro aspecto crítico del desarrollo de Llama 3. Meta desarrolló leyes de escalamiento que les permitieron predecir el desempeño de sus modelos más grandes en tareas clave, como la generación de código, antes de entrenarlos. Esto informó las decisiones sobre la combinación de datos y la asignación de computación, lo que en última instancia condujo a una capacitación más eficiente y efectiva.

Los modelos más grandes de Llama 3 se entrenaron en dos clústeres de 24,000 GPU personalizados, aprovechando una combinación de técnicas de paralelización de datos, paralelización de modelos y paralelización de tuberías. La pila de entrenamiento avanzada de Meta automatiza la detección, el manejo y el mantenimiento de errores, maximizando el tiempo de actividad de la GPU y aumentando la eficiencia del entrenamiento aproximadamente tres veces en comparación con Llama 2.

Instrucción, ajuste y rendimiento

Para desbloquear todo el potencial de Llama 3 para aplicaciones de chat y diálogo, Meta innovó su enfoque para ajustar las instrucciones. Su método combina puesta a punto supervisada (SFT), muestreo de rechazo, optimización de la política próxima (PPO), y optimización de preferencias directas (DPO).

La calidad de las indicaciones utilizadas en SFT y las clasificaciones de preferencias utilizadas en PPO y DPO desempeñaron un papel crucial en el desempeño de los modelos alineados. El equipo de Meta seleccionó cuidadosamente estos datos y realizó múltiples rondas de control de calidad de las anotaciones proporcionadas por anotadores humanos.

La capacitación sobre clasificaciones de preferencias a través de PPO y DPO también mejoró significativamente el desempeño de Llama 3 en tareas de razonamiento y codificación. Meta descubrió que incluso cuando un modelo tiene dificultades para responder directamente a una pregunta de razonamiento, aún puede producir el rastro de razonamiento correcto. La capacitación sobre clasificaciones de preferencias permitió que el modelo aprendiera cómo seleccionar la respuesta correcta a partir de estos rastros.

Los resultados hablan por sí solos: Llama 3 supera a muchos modelos de chat de código abierto disponibles en los puntos de referencia comunes de la industria, estableciendo un nuevo rendimiento de vanguardia para LLM en las escalas de parámetros 8B y 70B.

Consideraciones de seguridad y desarrollo responsable

Mientras buscaba un rendimiento de vanguardia, Meta también priorizó las prácticas responsables de desarrollo e implementación para Llama 3. La compañía adoptó un enfoque a nivel de sistema, visualizando los modelos de Llama 3 como parte de un ecosistema más amplio que coloca a los desarrolladores en el asiento del conductor, permitiéndoles diseñar y personalizar los modelos para sus casos de uso específicos y requisitos de seguridad.

Meta llevó a cabo extensos ejercicios de formación de equipos rojos, realizó evaluaciones adversas e implementó técnicas de mitigación de seguridad para reducir los riesgos residuales en sus modelos ajustados a la instrucción. Sin embargo, la compañía reconoce que es probable que persistan riesgos residuales y recomienda que los desarrolladores evalúen estos riesgos en el contexto de sus casos de uso específicos.

Para respaldar la implementación responsable, Meta ha actualizado su Guía de uso responsable, que proporciona un recurso integral para que los desarrolladores implementen las mejores prácticas de seguridad a nivel de modelo y sistema para sus aplicaciones. La guía cubre temas como moderación de contenido, evaluación de riesgos y el uso de herramientas de seguridad como Llama Guard 2 y Code Shield.

Llama Guard 2, construido sobre la taxonomía MLCommons, está diseñado para clasificar las entradas (indicaciones) y respuestas de LLM, detectando contenido que puede considerarse inseguro o dañino. CyberSecEval 2 amplía su predecesor al agregar medidas para evitar el abuso del intérprete de código del modelo, capacidades de ciberseguridad ofensivas y susceptibilidad a ataques de inyección rápida.

Code Shield, una nueva introducción con Llama 3, agrega filtrado en tiempo de inferencia de código inseguro producido por LLM, mitigando los riesgos asociados con sugerencias de código inseguro, abuso de intérpretes de código y ejecución segura de comandos.

Acceso y uso de Llama 3

Tras el lanzamiento de Llama 3 de Meta AI, varias herramientas de código abierto estuvieron disponibles para implementación local en varios sistemas operativos, incluidos Mac, Windows y Linux. Esta sección detalla tres herramientas notables: Ollama, Open WebUI y LM Studio, cada una de las cuales ofrece características únicas para aprovechar las capacidades de Llama 3 en dispositivos personales.

Ollama: Disponible para Mac, Linux y Windows, Ollama simplifica el funcionamiento de Llama 3 y otros modelos de lenguajes grandes en computadoras personales, incluso aquellas con hardware menos robusto. Incluye un administrador de paquetes para una fácil administración de modelos y admite comandos en todas las plataformas para descargar y ejecutar modelos.

Abra WebUI con Docker: Esta herramienta proporciona una herramienta fácil de usar, DockerInterfaz basada en Mac compatible con Mac, Linux y Windows. Se integra perfectamente con los modelos del registro de Ollama, lo que permite a los usuarios implementar e interactuar con modelos como Llama 3 dentro de una interfaz web local.

Estudio LM: Dirigido a usuarios de Mac, Linux y Windows. Estudio LM admite una variedad de modelos y se basa en el proyecto llama.cpp. Proporciona una interfaz de chat y facilita la interacción directa con varios modelos, incluido el modelo Llama 3 8B Instruct.

Estas herramientas garantizan que los usuarios puedan utilizar Llama 3 de manera eficiente en sus dispositivos personales, acomodándose a una variedad de habilidades y requisitos técnicos. Cada plataforma ofrece procesos paso a paso para la configuración y la interacción del modelo, lo que hace que la IA avanzada sea más accesible para desarrolladores y entusiastas.

Implementación de Llama 3 a escala

Además de brindar acceso directo a los pesos de los modelos, Meta se ha asociado con varios proveedores de nube, servicios API de modelos y plataformas de hardware para permitir una implementación perfecta de Llama 3 a escala.

Una de las ventajas clave de Llama 3 es la eficiencia mejorada de los tokens, gracias al nuevo tokenizador. Los puntos de referencia muestran que Llama 3 requiere hasta 15% menos tokens en comparación con Llama 2, lo que resulta en una inferencia más rápida y rentable.

La integración de Atención de consultas agrupadas (GQA) en la versión 8B de Llama 3 contribuye a mantener la eficiencia de la inferencia a la par con la versión 7B de Llama 2, a pesar del aumento en el recuento de parámetros.

Para simplificar el proceso de implementación, Meta ha proporcionado el repositorio Llama Recipes, que contiene código fuente abierto y ejemplos para ajuste, implementación, evaluación de modelos y más. Este repositorio sirve como un recurso valioso para los desarrolladores que buscan aprovechar las capacidades de Llama 3 en sus aplicaciones.

Para aquellos interesados en explorar el rendimiento de Llama 3, Meta ha integrado sus últimos modelos en Meta AI, un asistente de inteligencia artificial líder creado con la tecnología Llama 3. Los usuarios pueden interactuar con Meta AI a través de varias Meta aplicaciones, como Facebook, Instagram, WhatsApp, Messenger y la web, para hacer cosas, aprender, crear y conectarse con las cosas que les importan.

¿Qué sigue para Llama 3?

Si bien los modelos 8B y 70B marcan el comienzo del lanzamiento de Llama 3, Meta tiene planes ambiciosos para el futuro de este innovador LLM.

En los próximos meses, podemos esperar ver la introducción de nuevas capacidades, incluida la multimodalidad (la capacidad de procesar y generar diferentes modalidades de datos, como imágenes y videos), multilingüismo (que admite múltiples idiomas) y ventanas de contexto mucho más largas para mejorar el rendimiento en tareas que requieren un contexto amplio.

Además, Meta planea lanzar modelos de mayor tamaño, incluidos modelos con más de 400 mil millones de parámetros, que actualmente están en entrenamiento y muestran tendencias prometedoras en términos de rendimiento y capacidades.

Para seguir avanzando en el campo, Meta también publicará un artículo de investigación detallado sobre Llama 3, compartiendo sus hallazgos e ideas con la comunidad de IA en general.

Como adelanto de lo que está por venir, Meta ha compartido algunas instantáneas del rendimiento de su modelo LLM más grande en varios puntos de referencia. Si bien estos resultados se basan en un punto de control inicial y están sujetos a cambios, brindan una visión emocionante del potencial futuro de Llama 3.

Conclusión

Llama 3 representa un hito importante en la evolución de los grandes modelos de lenguajes de código abierto, ampliando los límites del rendimiento, las capacidades y las prácticas de desarrollo responsable. Con su arquitectura innovadora, conjunto de datos de entrenamiento masivo y técnicas de ajuste de vanguardia, Llama 3 establece nuevos puntos de referencia de última generación para LLM en las escalas de parámetros 8B y 70B.

Sin embargo, Llama 3 es más que un poderoso modelo de lenguaje; es un testimonio del compromiso de Meta de fomentar un ecosistema de IA abierto y responsable. Al proporcionar recursos integrales, herramientas de seguridad y mejores prácticas, Meta permite a los desarrolladores aprovechar todo el potencial de Llama 3 y, al mismo tiempo, garantizar una implementación responsable adaptada a sus audiencias y casos de uso específicos.

A medida que continúa el viaje de Llama 3, con nuevas capacidades, tamaños de modelos y hallazgos de investigación en el horizonte, la comunidad de IA espera ansiosamente las aplicaciones innovadoras y los avances que sin duda surgirán de este innovador LLM.

Ya sea usted un investigador que traspasa los límites del procesamiento del lenguaje natural, un desarrollador que crea la próxima generación de aplicaciones inteligentes o un entusiasta de la IA que siente curiosidad por los últimos avances, Llama 3 promete ser una poderosa herramienta en su arsenal, que le abrirá nuevas puertas y abriendo un mundo de posibilidades.

Temas relacionados:Llama llamas 2 llamas 3 LLM LLM meta

Hasta la próxima

Microsoft presenta Phi-3: potentes modelos de IA abierta que ofrecen el máximo rendimiento en tamaños pequeños

No Te Lo

FrugalGPT: un cambio de paradigma en la optimización de costos para modelos de lenguaje grandes

Aayush Mittal

He pasado los últimos cinco años sumergiéndome en el fascinante mundo del aprendizaje automático y el aprendizaje profundo. Mi pasión y experiencia me han llevado a contribuir en más de 50 proyectos diversos de ingeniería de software, con un enfoque particular en AI/ML. Mi curiosidad constante también me ha atraído hacia el procesamiento del lenguaje natural, un campo que estoy ansioso por explorar más a fondo.