Inteligencia artificial
Todo lo que necesitas saber sobre Llama 3 | El modelo de código abierto más potente hasta el momento | Conceptos de uso
Meta ha lanzado recientemente llamas 3, la próxima generación de su modelo de lenguaje grande (LLM) de código abierto de última generación. Construyendo sobre las bases establecidas por su predecesor, Llama 3 tiene como objetivo mejorar las capacidades que posicionaron a Llama 2 como un importante competidor de código abierto para ChatGPT, como se describe en la revisión exhaustiva del artículo. Llama 2: una inmersión profunda en el desafío de código abierto de ChatGPT.
En este artículo discutiremos los conceptos centrales detrás de Llama 3, exploraremos su arquitectura innovadora y su proceso de capacitación, y brindaremos orientación práctica sobre cómo acceder, usar e implementar este modelo innovador de manera responsable. Si eres investigador, desarrollador o entusiasta de la IA, esta publicación te brindará el conocimiento y los recursos necesarios para aprovechar el poder de Llama 3 para tus proyectos y aplicaciones.
La evolución de Llama: de Llama 2 a Llama 3
El director ejecutivo de Meta, Mark Zuckerberg, anunció el debut de Llama 3, el último modelo de IA desarrollado por Meta AI. Este modelo de última generación, ahora de código abierto, está destinado a mejorar los diversos productos de Meta, incluidos Messenger e Instagram. Zuckerberg destacó que Llama 3 posiciona a Meta AI como la más avanzada asistente de IA disponible gratuitamente.
Antes de hablar sobre los detalles de Llama 3, revisemos brevemente su predecesor, Llama 2. Presentado en 2022, Llama 2 fue un hito importante en el panorama LLM de código abierto, ya que ofrece un modelo potente y eficiente que podría ejecutarse en hardware de consumo. .
Sin embargo, si bien Llama 2 fue un logro notable, tuvo sus limitaciones. Los usuarios informaron problemas con rechazos falsos (el modelo se niega a responder preguntas benignas), utilidad limitada y margen de mejora en áreas como el razonamiento y la generación de código.
Ingrese Llama 3: la respuesta de Meta a estos desafíos y los comentarios de la comunidad. Con Llama 3, Meta se ha propuesto crear los mejores modelos de código abierto a la par de los principales modelos propietarios disponibles en la actualidad, al mismo tiempo que prioriza las prácticas responsables de desarrollo e implementación.
Llama 3: Arquitectura y Formación
Una de las innovaciones clave en Llama 3 es su tokenizador, que presenta un vocabulario significativamente ampliado de Tokens 128,256 (frente a 32,000 en Llama 2). Este vocabulario más amplio permite una codificación más eficiente del texto, tanto para la entrada como para la salida, lo que potencialmente conduce a un multilingüismo más fuerte y a mejoras generales en el rendimiento.
Llama 3 también incorpora Atención de consultas agrupadas (GQA), una técnica de representación eficiente que mejora la escalabilidad y ayuda al modelo a manejar contextos más largos de manera más efectiva. El 8B La versión de Llama 3 utiliza GQA, mientras que tanto el 8B y 70B Los modelos pueden procesar secuencias de hasta Tokens 8,192.
Datos de entrenamiento y escalamiento
Los datos de entrenamiento utilizados para Llama 3 son un factor crucial en su rendimiento mejorado. Meta seleccionó un conjunto de datos masivo de más 15 billones tokens de fuentes en línea disponibles públicamente, siete veces más grande que el conjunto de datos utilizado para Llama 2. Este conjunto de datos también incluye una porción significativa (más del 5%) de datos de alta calidad en idiomas distintos del inglés, que cubren más de 30 idiomas., en preparación para futuras aplicaciones multilingües.
Para garantizar la calidad de los datos, Meta empleó técnicas de filtrado avanzadas, incluidos filtros heurísticos, filtros NSFW, deduplicación semántica y clasificadores de texto entrenados en Llama 2 para predecir la calidad de los datos. El equipo también llevó a cabo extensos experimentos para determinar la combinación óptima de fuentes de datos para el entrenamiento previo, asegurando que Llama 3 funcione bien en una amplia gama de casos de uso, incluidos trivia, STEM, codificación y conocimiento histórico.
Ampliar el entrenamiento previo fue otro aspecto crítico del desarrollo de Llama 3. Meta desarrolló leyes de escalamiento que les permitieron predecir el desempeño de sus modelos más grandes en tareas clave, como la generación de código, antes de entrenarlos. Esto informó las decisiones sobre la combinación de datos y la asignación de computación, lo que en última instancia condujo a una capacitación más eficiente y efectiva.
Los modelos más grandes de Llama 3 se entrenaron en dos clústeres de 24,000 GPU personalizados, aprovechando una combinación de técnicas de paralelización de datos, paralelización de modelos y paralelización de tuberías. La pila de entrenamiento avanzada de Meta automatiza la detección, el manejo y el mantenimiento de errores, maximizando el tiempo de actividad de la GPU y aumentando la eficiencia del entrenamiento aproximadamente tres veces en comparación con Llama 2.
Instrucción, ajuste y rendimiento
Para desbloquear todo el potencial de Llama 3 para aplicaciones de chat y diálogo, Meta innovó su enfoque para ajustar las instrucciones. Su método combina puesta a punto supervisada (SFT), muestreo de rechazo, optimización de la política próxima (PPO), y optimización de preferencias directas (DPO).
La calidad de las indicaciones utilizadas en SFT y las clasificaciones de preferencias utilizadas en PPO y DPO desempeñaron un papel crucial en el desempeño de los modelos alineados. El equipo de Meta seleccionó cuidadosamente estos datos y realizó múltiples rondas de control de calidad de las anotaciones proporcionadas por anotadores humanos.
La capacitación sobre clasificaciones de preferencias a través de PPO y DPO también mejoró significativamente el desempeño de Llama 3 en tareas de razonamiento y codificación. Meta descubrió que incluso cuando un modelo tiene dificultades para responder directamente a una pregunta de razonamiento, aún puede producir el rastro de razonamiento correcto. La capacitación sobre clasificaciones de preferencias permitió que el modelo aprendiera cómo seleccionar la respuesta correcta a partir de estos rastros.
Los resultados hablan por sí solos: Llama 3 supera a muchos modelos de chat de código abierto disponibles en los puntos de referencia comunes de la industria, estableciendo un nuevo rendimiento de vanguardia para LLM en las escalas de parámetros 8B y 70B.
Consideraciones de seguridad y desarrollo responsable
Mientras buscaba un rendimiento de vanguardia, Meta también priorizó las prácticas responsables de desarrollo e implementación para Llama 3. La compañía adoptó un enfoque a nivel de sistema, visualizando los modelos de Llama 3 como parte de un ecosistema más amplio que coloca a los desarrolladores en el asiento del conductor, permitiéndoles diseñar y personalizar los modelos para sus casos de uso específicos y requisitos de seguridad.
Meta llevó a cabo extensos ejercicios de formación de equipos rojos, realizó evaluaciones adversas e implementó técnicas de mitigación de seguridad para reducir los riesgos residuales en sus modelos ajustados a la instrucción. Sin embargo, la compañía reconoce que es probable que persistan riesgos residuales y recomienda que los desarrolladores evalúen estos riesgos en el contexto de sus casos de uso específicos.
Para respaldar la implementación responsable, Meta ha actualizado su Guía de uso responsable, que proporciona un recurso integral para que los desarrolladores implementen las mejores prácticas de seguridad a nivel de modelo y sistema para sus aplicaciones. La guía cubre temas como moderación de contenido, evaluación de riesgos y el uso de herramientas de seguridad como Llama Guard 2 y Code Shield.
Llama Guard 2, construido sobre la taxonomía MLCommons, está diseñado para clasificar las entradas (indicaciones) y respuestas de LLM, detectando contenido que puede considerarse inseguro o dañino. CyberSecEval 2 amplía su predecesor al agregar medidas para evitar el abuso del intérprete de código del modelo, capacidades de ciberseguridad ofensivas y susceptibilidad a ataques de inyección rápida.
Code Shield, una nueva introducción con Llama 3, agrega filtrado en tiempo de inferencia de código inseguro producido por LLM, mitigando los riesgos asociados con sugerencias de código inseguro, abuso de intérpretes de código y ejecución segura de comandos.
Acceso y uso de Llama 3
Tras el lanzamiento de Llama 3 de Meta AI, varias herramientas de código abierto estuvieron disponibles para implementación local en varios sistemas operativos, incluidos Mac, Windows y Linux. Esta sección detalla tres herramientas notables: Ollama, Open WebUI y LM Studio, cada una de las cuales ofrece características únicas para aprovechar las capacidades de Llama 3 en dispositivos personales.
Ollama: Disponible para Mac, Linux y Windows, Ollama simplifica el funcionamiento de Llama 3 y otros modelos de lenguajes grandes en computadoras personales, incluso aquellas con hardware menos robusto. Incluye un administrador de paquetes para una fácil administración de modelos y admite comandos en todas las plataformas para descargar y ejecutar modelos.
Abra WebUI con Docker: Esta herramienta proporciona una herramienta fácil de usar, DockerInterfaz basada en Mac compatible con Mac, Linux y Windows. Se integra perfectamente con los modelos del registro de Ollama, lo que permite a los usuarios implementar e interactuar con modelos como Llama 3 dentro de una interfaz web local.
Estudio LM: Dirigido a usuarios de Mac, Linux y Windows. Estudio LM admite una variedad de modelos y se basa en el proyecto llama.cpp. Proporciona una interfaz de chat y facilita la interacción directa con varios modelos, incluido el modelo Llama 3 8B Instruct.
Estas herramientas garantizan que los usuarios puedan utilizar Llama 3 de manera eficiente en sus dispositivos personales, acomodándose a una variedad de habilidades y requisitos técnicos. Cada plataforma ofrece procesos paso a paso para la configuración y la interacción del modelo, lo que hace que la IA avanzada sea más accesible para desarrolladores y entusiastas.