Inteligencia Artificial
Todo lo que necesitas saber sobre Llama 3 | El modelo de código abierto más potente hasta el momento | Conceptos de uso
Meta ha lanzado recientemente llamas 3, la próxima generación de su modelo de lenguaje grande (LLM) de código abierto de última generación. Construyendo sobre las bases establecidas por su predecesor, Llama 3 tiene como objetivo mejorar las capacidades que posicionaron a Llama 2 como un importante competidor de código abierto para ChatGPT, como se describe en la revisión exhaustiva del artículo. Llama 2: una inmersión profunda en el desafío de código abierto de ChatGPT.
En este artículo discutiremos los conceptos centrales detrás de Llama 3, exploraremos su arquitectura innovadora y su proceso de capacitación, y brindaremos orientación práctica sobre cómo acceder, usar e implementar este modelo innovador de manera responsable. Si eres investigador, desarrollador o entusiasta de la IA, esta publicación te brindará el conocimiento y los recursos necesarios para aprovechar el poder de Llama 3 para tus proyectos y aplicaciones.
La evolución de Llama: de Llama 2 a Llama 3
El presidente ejecutivo de Meta, Mark Zuckerberg, anunció El debut de Llama 3, el último modelo de IA desarrollado por Meta AI. Este modelo de vanguardia, ahora de código abierto, está diseñado para mejorar los diversos productos de Meta, incluyendo Messenger e Instagram. Zuckerberg destacó que Llama 3 posiciona a Meta AI como la herramienta más avanzada. asistente de IA disponible gratuitamente.
Antes de hablar sobre los detalles de Llama 3, repasemos brevemente su predecesor, Llama 2. Presentado en 2022, Llama 2 fue un hito importante en el panorama LLM de código abierto, ofreciendo un modelo poderoso y eficiente que podía ejecutarse en hardware de consumo.
Sin embargo, si bien Llama 2 fue un logro notable, tuvo sus limitaciones. Los usuarios informaron problemas con rechazos falsos (el modelo se niega a responder preguntas benignas), utilidad limitada y margen de mejora en áreas como el razonamiento y la generación de código.
Presentamos Llama 3: la respuesta de Meta a estos desafíos y los comentarios de la comunidad. Con Llama 3, Meta se ha propuesto construir los mejores modelos de código abierto, a la par de los mejores modelos propietarios disponibles actualmente, priorizando al mismo tiempo prácticas responsables de desarrollo e implementación.
Llama 3: Arquitectura y Formación
Una de las innovaciones clave en Llama 3 es su tokenizador, que presenta un vocabulario significativamente ampliado de Tokens 128,256 (frente a 32,000 en Llama 2). Este vocabulario más amplio permite una codificación más eficiente del texto, tanto para la entrada como para la salida, lo que potencialmente conduce a un multilingüismo más fuerte y a mejoras generales en el rendimiento.
Llama 3 también incorpora Atención de consultas agrupadas (GQA), una técnica de representación eficiente que mejora la escalabilidad y ayuda al modelo a manejar contextos más largos de manera más efectiva. El 8B La versión de Llama 3 utiliza GQA, mientras que tanto el 8B 70B Los modelos pueden procesar secuencias de hasta Tokens 8,192.
Datos de entrenamiento y escalamiento
Los datos de entrenamiento utilizados para Llama 3 son un factor crucial en su rendimiento mejorado. Meta seleccionó un conjunto de datos masivo de más 15 billones tokens de fuentes en línea disponibles públicamente, siete veces más grande que el conjunto de datos utilizado para Llama 2. Este conjunto de datos también incluye una porción significativa (más del 5%) de datos de alta calidad en idiomas distintos del inglés, que cubren más de 30 idiomas,, en preparación para futuras aplicaciones multilingües.
Para garantizar la calidad de los datos, Meta empleó técnicas de filtrado avanzadas, incluidos filtros heurísticos, filtros NSFW, deduplicación semántica y clasificadores de texto entrenados en Llama 2 para predecir la calidad de los datos. El equipo también llevó a cabo extensos experimentos para determinar la combinación óptima de fuentes de datos para el entrenamiento previo, asegurando que Llama 3 funcione bien en una amplia gama de casos de uso, incluidos trivia, STEM, codificación y conocimiento histórico.
Escalar el preentrenamiento fue otro aspecto crucial del desarrollo de Llama 3. Meta desarrolló leyes de escalamiento que permitieron predecir el rendimiento de sus modelos más grandes en tareas clave, como la generación de código, antes de entrenarlos. Esto influyó en las decisiones sobre la combinación de datos y la asignación de cómputo, lo que finalmente resultó en un entrenamiento más eficiente y eficaz.
Los modelos más grandes de Llama 3 se entrenaron en dos clústeres personalizados de 24,000 2 GPU, aprovechando una combinación de técnicas de paralelización de datos, modelos y pipelines. La pila de entrenamiento avanzada de Meta automatizó la detección, la gestión y el mantenimiento de errores, maximizando el tiempo de actividad de la GPU y triplicando la eficiencia del entrenamiento en comparación con Llama XNUMX.
Instrucción, ajuste y rendimiento
Para aprovechar al máximo el potencial de Llama 3 para aplicaciones de chat y diálogo, Meta innovó su enfoque para el ajuste preciso de las instrucciones. Su método combina puesta a punto supervisada (SFT), muestreo de rechazo, optimización de la política próxima (PPO), y optimización de preferencias directas (DPO).
La calidad de las indicaciones utilizadas en SFT y las clasificaciones de preferencias empleadas en PPO y DPO fueron cruciales para el rendimiento de los modelos alineados. El equipo de Meta seleccionó cuidadosamente estos datos y realizó múltiples rondas de control de calidad de las anotaciones realizadas por anotadores humanos.
El entrenamiento en clasificaciones de preferencias mediante PPO y DPO también mejoró significativamente el rendimiento de Llama 3 en tareas de razonamiento y codificación. Meta descubrió que incluso cuando un modelo tiene dificultades para responder directamente a una pregunta de razonamiento, puede generar la traza de razonamiento correcta. El entrenamiento en clasificaciones de preferencias permitió al modelo aprender a seleccionar la respuesta correcta a partir de estas trazas.
Los resultados hablan por sí solos: Llama 3 supera a muchos modelos de chat de código abierto disponibles en los puntos de referencia comunes de la industria, estableciendo un nuevo rendimiento de vanguardia para LLM en las escalas de parámetros 8B y 70B.
Consideraciones de seguridad y desarrollo responsable
Mientras buscaba un rendimiento de vanguardia, Meta también priorizó prácticas responsables de desarrollo e implementación para Llama 3. La empresa adoptó un enfoque a nivel de sistema, visualizando los modelos de Llama 3 como parte de un ecosistema más amplio que pone a los desarrolladores al mando, permitiéndoles diseñar y personalizar los modelos para sus casos de uso específicos y requisitos de seguridad.
Meta llevó a cabo extensos ejercicios de formación de equipos rojos, realizó evaluaciones adversas e implementó técnicas de mitigación de seguridad para reducir los riesgos residuales en sus modelos ajustados a la instrucción. Sin embargo, la compañía reconoce que es probable que persistan riesgos residuales y recomienda que los desarrolladores evalúen estos riesgos en el contexto de sus casos de uso específicos.
Para respaldar la implementación responsable, Meta ha actualizado su Guía de uso responsable, que proporciona un recurso integral para que los desarrolladores implementen las mejores prácticas de seguridad a nivel de modelo y sistema para sus aplicaciones. La guía cubre temas como moderación de contenido, evaluación de riesgos y el uso de herramientas de seguridad como Llama Guard 2 y Code Shield.
Llama Guard 2, basado en la taxonomía MLCommons, está diseñado para clasificar las entradas (solicitudes) y respuestas de LLM, detectando contenido que pueda considerarse inseguro o dañino. CyberSecEval 2 amplía las funciones de su predecesor añadiendo medidas para prevenir el abuso del intérprete de código del modelo, capacidades de ciberseguridad ofensivas y la susceptibilidad a ataques de inyección de sugerencias.
Code Shield, una nueva introducción con Llama 3, agrega filtrado en tiempo de inferencia de código inseguro producido por LLM, mitigando los riesgos asociados con sugerencias de código inseguro, abuso de intérpretes de código y ejecución segura de comandos.
Acceso y uso de Llama 3
Tras el lanzamiento de Llama 3 de Meta AI, se han puesto a disposición varias herramientas de código abierto para su implementación local en diversos sistemas operativos, como Mac, Windows y Linux. Esta sección detalla tres herramientas destacadas: Ollama, Open WebUI y LM Studio, cada una con funciones únicas para aprovechar las capacidades de Llama 3 en dispositivos personales.
Ollama: Disponible para Mac, Linux y Windows, Ollama simplifica el funcionamiento de Llama 3 y otros modelos de lenguajes grandes en computadoras personales, incluso aquellas con hardware menos robusto. Incluye un administrador de paquetes para una fácil administración de modelos y admite comandos en todas las plataformas para descargar y ejecutar modelos.
Abra WebUI con Docker: Esta herramienta proporciona una herramienta fácil de usar, DockerInterfaz basada en Mac compatible con Mac, Linux y Windows. Se integra perfectamente con los modelos del registro de Ollama, lo que permite a los usuarios implementar e interactuar con modelos como Llama 3 dentro de una interfaz web local.
Estudio LM: Dirigido a usuarios de Mac, Linux y Windows. Estudio LM admite una variedad de modelos y se basa en el proyecto llama.cpp. Proporciona una interfaz de chat y facilita la interacción directa con varios modelos, incluido el modelo Llama 3 8B Instruct.
Estas herramientas garantizan que los usuarios puedan utilizar Llama 3 de manera eficiente en sus dispositivos personales, acomodándose a una variedad de habilidades y requisitos técnicos. Cada plataforma ofrece procesos paso a paso para la configuración y la interacción del modelo, lo que hace que la IA avanzada sea más accesible para desarrolladores y entusiastas.













