Inteligencia artificial

Snowflake Arctic: el LLM de vanguardia para IA empresarial

Publicado

Hace 2 semanas

Abril 25, 2024

Snowflake Arctic: el LLM de vanguardia para IA empresarial

Hoy en día, las empresas exploran cada vez más formas de aprovechar los modelos de lenguajes grandes (LLM) para impulsar la productividad y crear aplicaciones inteligentes. Sin embargo, muchas de las opciones de LLM disponibles son modelos genéricos que no están diseñados para necesidades empresariales especializadas, como análisis de datos, codificación y automatización de tareas. Ingresar Copo de nieve ártico – un LLM de última generación diseñado y optimizado específicamente para casos de uso empresarial básicos.

Desarrollado por el equipo de investigación de IA de Snowflake, Arctic traspasa los límites de lo posible con una formación eficiente, rentabilidad y un nivel de apertura incomparable. Este modelo revolucionario sobresale en puntos de referencia empresariales clave y requiere mucha menos potencia informática en comparación con los LLM existentes. Profundicemos en lo que hace que Arctic cambie las reglas del juego para la IA empresarial.

Inteligencia empresarial redefinida En esencia, Arctic se centra en ofrecer un rendimiento excepcional en métricas que realmente importan para las empresas: codificación, consultas SQL, seguimiento de instrucciones complejas y producción de resultados fundamentados y basados en hechos. Snowflake ha combinado estas capacidades críticas en una novela "inteligencia empresarialmétrica.

los resultados hablan por si mismos. Arctic cumple o supera a modelos como LLAMA 7B y LLAMA 70B en los puntos de referencia de inteligencia empresarial y utiliza menos de la mitad del presupuesto informático para capacitación. Sorprendentemente, a pesar de utilizar 17 veces menos recursos informáticos que LLAMA 70B, Arctic logra paridad en pruebas especializadas como codificación (HumanEval+, MBPP+), generación de SQL (Spider) y seguimiento de instrucciones (IFEval).

Pero la destreza de Arctic va más allá de simplemente superar los estándares empresariales. Mantiene un rendimiento sólido en la comprensión del lenguaje general, el razonamiento y la aptitud matemática en comparación con modelos entrenados con presupuestos de computación exponencialmente más altos como DBRX. Esta capacidad holística convierte a Arctic en una opción inmejorable para abordar las diversas necesidades de IA de una empresa.

La innovación

Transformador híbrido de MoE denso Entonces, ¿cómo construyó el equipo de Snowflake un LLM tan increíblemente capaz pero eficiente? La respuesta está en la vanguardista arquitectura de transformador híbrido de mezcla densa de expertos (MoE) de Arctic.

Los modelos tradicionales de transformadores densos se vuelven cada vez más costosos de entrenar a medida que crece su tamaño, y los requisitos computacionales aumentan linealmente. El diseño del MoE ayuda a evitar esto al utilizar múltiples redes de retroalimentación paralelas (expertos) y activar solo un subconjunto para cada token de entrada.

Sin embargo, simplemente usar una arquitectura MoE no es suficiente: Arctic combina ingeniosamente las fortalezas de los componentes densos y MoE. Combina un codificador de transformador denso de 10 mil millones de parámetros con una capa de perceptrón multicapa (MLP) residual MoE experto. Este modelo híbrido de MoE denso suma un total de 128 mil millones de parámetros, pero solo 480 mil millones están activos en un momento dado utilizando la activación de los 17 primeros.

Las implicaciones son profundas: Arctic logra una calidad y capacidad de modelo sin precedentes y al mismo tiempo sigue siendo notablemente eficiente en computación durante el entrenamiento y la inferencia. Por ejemplo, Arctic tiene un 50% menos de parámetros activos que modelos como DBRX durante la inferencia.

Pero la arquitectura modelo es sólo una parte de la historia. La excelencia del Ártico es la culminación de varias técnicas y conocimientos pioneros desarrollados por el equipo de investigación de Snowflake:

Plan de estudios de datos de capacitación centrado en la empresa A través de una extensa experimentación, el equipo descubrió que las habilidades genéricas como el razonamiento de sentido común deben aprenderse temprano, mientras que las especializaciones más complejas como la codificación y SQL se adquieren mejor más adelante en el proceso de capacitación. El plan de estudios de datos de Arctic sigue un enfoque de tres etapas que imita las progresiones del aprendizaje humano.

Los primeros teratokens se centran en construir una base general amplia. Los próximos 1.5 teratokens se concentran en el desarrollo de habilidades empresariales a través de datos adaptados para SQL, tareas de codificación y más. Los teratokens finales refinan aún más las especializaciones del Ártico utilizando conjuntos de datos refinados.

Opciones arquitectónicas óptimas Si bien los MoE prometen una mejor calidad por cómputo, elegir las configuraciones correctas es crucial, pero aún no se comprende bien. A través de una investigación detallada, Snowflake llegó a una arquitectura que emplea a 128 expertos con los 2 mejores controlando cada capa después de evaluar las compensaciones entre calidad y eficiencia.

Aumentar el número de expertos proporciona más combinaciones, mejorando la capacidad del modelo. Sin embargo, esto también aumenta los costos de comunicación, por lo que Snowflake eligió 128 expertos "condensados" cuidadosamente diseñados y activados a través de la activación de los 2 primeros como equilibrio óptimo.

Codiseño del sistema Pero incluso una arquitectura de modelo óptima puede verse socavada por cuellos de botella en el sistema. Así que el equipo de Snowflake también innovó aquí: codiseñando la arquitectura del modelo de la mano con los sistemas de inferencia y entrenamiento subyacentes.

Para lograr una capacitación eficiente, los componentes denso y MoE se estructuraron para permitir la superposición de comunicación y computación, ocultando importantes gastos generales de comunicación. Por el lado de la inferencia, el equipo aprovechó las innovaciones de NVIDIA para permitir una implementación altamente eficiente a pesar de la escala del Ártico.

Técnicas como la cuantificación del FP8 permiten ajustar el modelo completo en un único nodo de GPU para realizar inferencias interactivas. Los lotes más grandes aprovechan las capacidades de paralelismo de Arctic en múltiples nodos y, al mismo tiempo, mantienen una eficiencia informática impresionante gracias a sus parámetros activos compactos de 17B.

Con una licencia Apache 2.0, los pesos y el código de Arctic están disponibles sin restricciones para cualquier uso personal, de investigación o comercial. Pero Snowflake ha ido mucho más allá al ofrecer acceso abierto a sus recetas de datos completas, implementaciones de modelos, consejos y los profundos conocimientos de investigación que impulsan al Ártico.

Los "Libro de cocina ártico”es una base de conocimientos integral que cubre todos los aspectos de la construcción y optimización de un modelo MoE a gran escala como Arctic. Destila aprendizajes clave sobre el abastecimiento de datos, el diseño de arquitectura de modelos, el codiseño de sistemas, esquemas optimizados de entrenamiento/inferencia y más.

Desde identificar planes de estudios de datos óptimos hasta diseñar MoE y al mismo tiempo cooptimizar compiladores, programadores y hardware, este amplio conjunto de conocimientos democratiza habilidades que antes estaban confinadas a los laboratorios de inteligencia artificial de élite. El Arctic Cookbook acelera las curvas de aprendizaje y permite a las empresas, investigadores y desarrolladores de todo el mundo crear sus propios LLM rentables y personalizados para prácticamente cualquier caso de uso.

Empezando con el Ártico

Para las empresas interesadas en aprovechar el Ártico, Snowflake ofrece múltiples caminos para comenzar rápidamente:

Inferencia sin servidor: los clientes de Snowflake pueden acceder al modelo Arctic de forma gratuita en Snowflake Cortex, la plataforma de inteligencia artificial totalmente administrada de la compañía. Más allá de eso, Arctic está disponible en todos los catálogos de modelos principales, como AWS, Microsoft Azure, NVIDIA y más.

Empezar desde cero: los pesos y las implementaciones del modelo de código abierto permiten a los desarrolladores integrar Arctic directamente en sus aplicaciones y servicios. El repositorio de Arctic proporciona ejemplos de código, tutoriales de implementación, recetas de ajuste y más.

Cree modelos personalizados: gracias a las guías exhaustivas del Arctic Cookbook, los desarrolladores pueden crear sus propios modelos MoE personalizados desde cero, optimizados para cualquier caso de uso especializado, utilizando lo aprendido del desarrollo de Arctic.

Una nueva era de IA empresarial abierta Arctic es más que simplemente otro poderoso modelo de lenguaje: presagia una nueva era de capacidades de IA abiertas, rentables y especializadas diseñadas específicamente para la empresa.

Desde revolucionar el análisis de datos y la productividad de la codificación hasta impulsar la automatización de tareas y aplicaciones más inteligentes, el ADN empresarial de Arctic lo convierte en una opción inmejorable frente a los LLM genéricos. Y al abrir el código fuente no solo del modelo sino de todo el proceso de investigación y desarrollo detrás de él, Snowflake está fomentando una cultura de colaboración que elevará todo el ecosistema de IA.

A medida que las empresas adoptan cada vez más la IA generativa, Arctic ofrece un plan audaz para desarrollar modelos objetivamente superiores para cargas de trabajo de producción y entornos empresariales. Su confluencia de investigación de vanguardia, eficiencia inigualable y un espíritu abierto y firme establece un nuevo punto de referencia en la democratización del potencial transformador de la IA.

Aquí hay una sección con ejemplos de código sobre cómo usar el modelo Snowflake Arctic:

Práctica con el Ártico

Ahora que hemos cubierto lo que hace que Arctic sea realmente innovador, profundicemos en cómo los desarrolladores y científicos de datos pueden comenzar a poner en práctica este potente modelo.
Desde el primer momento, Arctic está disponible previamente capacitado y listo para implementarse a través de los principales centros de modelos como Hugging Face y plataformas de inteligencia artificial asociadas. Pero su verdadero poder surge al personalizarlo y ajustarlo para sus casos de uso específicos.

La licencia Apache 2.0 de Arctic brinda total libertad para integrarla en sus aplicaciones, servicios o flujos de trabajo de IA personalizados. Veamos algunos ejemplos de código usando la biblioteca de transformadores para comenzar:
Inferencia básica con el Ártico

Para casos de uso de generación rápida de texto, podemos cargar Arctic y ejecutar inferencia básica muy fácilmente:

from transformers import AutoTokenizer, AutoModelForCausalLM
# Load the tokenizer and model
tokenizer = AutoTokenizer.from_pretrained("Snowflake/snowflake-arctic-instruct")
model = AutoModelForCausalLM.from_pretrained("Snowflake/snowflake-arctic-instruct")
# Create a simple input and generate text
input_text = "Here is a basic question: What is the capital of France?"
input_ids = tokenizer.encode(input_text, return_tensors="pt")
# Generate response with Arctic
output = model.generate(input_ids, max_length=150, do_sample=True, top_k=50, top_p=0.95, num_return_sequences=1)
generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
print(generated_text)

Esto debería generar algo como:

"La capital de Francia es París. París es la ciudad más grande de Francia y el centro económico, político y cultural del país. Es el hogar de lugares famosos como la Torre Eiffel, el museo del Louvre y la Catedral de Notre-Dame”.

Como puede ver, Arctic comprende perfectamente la consulta y proporciona una respuesta detallada y fundamentada aprovechando sus sólidas capacidades de comprensión del lenguaje.

Ajuste fino para tareas especializadas

Si bien es impresionante desde el primer momento, Arctic realmente brilla cuando se personaliza y ajusta sus datos patentados para tareas especializadas. Snowflake ha proporcionado recetas extensas que cubren:

Selección de datos de entrenamiento de alta calidad adaptados a su caso de uso
Implementación de currículos de capacitación personalizados en varias etapas
Aprovechar los enfoques eficientes de ajuste fino de LoRA, P-Tuning o FactorizedFusion
Optimizaciones para discernir SQL, codificación u otras habilidades empresariales clave

A continuación se muestra un ejemplo de cómo ajustar Arctic en sus propios conjuntos de datos de codificación utilizando las recetas de LoRA y Snowflake:

from transformers import AutoModelForCausalLM, AutoTokenizer
from peft import LoraConfig, get_peft_model, prepare_model_for_int8_training
# Load base Arctic model
tokenizer = AutoTokenizer.from_pretrained("Snowflake/snowflake-arctic-instruct")
model = AutoModelForCausalLM.from_pretrained("Snowflake/snowflake-arctic-instruct", load_in_8bit=True)
# Initialize LoRA configs
lora_config = LoraConfig(
r=8,
lora_alpha=16,
target_modules=["query_key_value"],
lora_dropout=0.05,
bias="none",
task_type="CAUSAL_LM"
)
# Prepare model for LoRA finetuning
model = prepare_model_for_int8_training(model)
model = get_peft_model(model, lora_config)
# Your coding datasets
data = load_coding_datasets()
# Fine-tune with Snowflake's recipes
train(model, data, ...)

Este código ilustra cómo puede cargar Arctic sin esfuerzo, inicializar una configuración LoRA adaptada para la generación de código y luego ajustar el modelo en sus conjuntos de datos de codificación patentados aprovechando la guía de Snowflake.

Personalizado y optimizado, Arctic se convierte en una potencia privada adaptada para ofrecer un rendimiento inigualable en los flujos de trabajo empresariales principales y en las necesidades de las partes interesadas.

El rápido ciclo de innovación del Ártico

Uno de los aspectos más impresionantes del Ártico es el ritmo vertiginoso al que el equipo de investigación de IA de Snowflake concibió, desarrolló y lanzó este modelo de vanguardia al mundo. Desde el inicio hasta el lanzamiento del código abierto, todo el proyecto Arctic tomó menos de tres meses y aprovechó solo alrededor de una octava parte del presupuesto informático típico para entrenar modelos de lenguaje grandes similares.

Esta capacidad de iterar, innovar y producir rápidamente investigaciones de IA de última generación es realmente notable. Demuestra las profundas capacidades técnicas de Snowflake y posiciona a la empresa para superar continuamente los límites en el desarrollo de capacidades de IA novedosas y optimizadas para la empresa.

La familia ártica y sus incrustaciones.

Arctic es solo el comienzo de las ambiciones de Snowflake en el espacio empresarial LLM. La compañía ya ha abierto la familia Snowflake Arctic Embed de modelos de incrustación de texto líderes en la industria optimizados para el rendimiento de recuperación en perfiles de múltiples tamaños.

Como se ilustra a continuación, los modelos Arctic Embed logran una precisión de recuperación de última generación en el respetado punto de referencia MTEB (recuperación de texto), superando a otros modelos de integración líderes, incluidas ofertas cerradas de los principales gigantes tecnológicos.

[Insertar imagen que muestra los resultados de referencia de recuperación de MTEB para modelos Arctic Embed]

Estos modelos de integración complementan el Arctic LLM y permiten a las empresas crear potentes soluciones de generación mejorada de recuperación y respuesta de preguntas a partir de una pila integrada de código abierto.

Pero la hoja de ruta de Snowflake se extiende mucho más allá del Ártico y las incrustaciones. Los investigadores de IA de la compañía están trabajando arduamente para expandir la familia Arctic con nuevos modelos diseñados para tareas multimodales, voz, video y más capacidades de vanguardia, todos construidos utilizando los mismos principios de especialización, eficiencia y apertura.

Asociarse para un ecosistema de IA abierto Snowflake entiende que para aprovechar todo el potencial de la IA abierta de nivel empresarial es necesario cultivar un rico ecosistema de asociaciones en toda la comunidad de IA. El lanzamiento del Ártico ya ha impulsado colaboraciones con importantes plataformas y proveedores:

NVIDIA se ha asociado estrechamente con Snowflake para optimizar Arctic y lograr una implementación eficiente utilizando la pila de inferencia de IA de vanguardia de NVIDIA, que incluye TensorRT, Triton y más. Esto permite a las empresas prestar servicios al Ártico a escala y de forma rentable.

Hugging Face, el principal centro de modelos de código abierto, ha dado la bienvenida a Arctic a sus bibliotecas y repositorios de modelos. Esto permite una integración perfecta de Arctic en los flujos de trabajo y aplicaciones de IA existentes basados en Hugging Face.

Plataformas como Replicate, SageMaker y más se han movido rápidamente para ofrecer demostraciones alojadas, API y vías de integración fluidas para Arctic, acelerando su adopción.

El código abierto impulsó el desarrollo del Ártico, y los ecosistemas abiertos siguen siendo fundamentales para su evolución. Snowflake se compromete a fomentar una rica colaboración con investigadores, desarrolladores, socios y empresas de todo el mundo para ampliar los límites de lo que es posible con modelos de IA abiertos y especializados.

Temas relacionados:Investigación de IA Ártico Empresas LLM Mezcla de expertos Copo de nieve transformador

Hasta la próxima

Mini-Gemini: Explotando el potencial de los modelos de lenguaje de visión multimodal

No Te Lo

AIOS: sistema operativo para agentes LLM

Aayush Mittal

He pasado los últimos cinco años sumergiéndome en el fascinante mundo del aprendizaje automático y el aprendizaje profundo. Mi pasión y experiencia me han llevado a contribuir en más de 50 proyectos diversos de ingeniería de software, con un enfoque particular en AI/ML. Mi curiosidad constante también me ha atraído hacia el procesamiento del lenguaje natural, un campo que estoy ansioso por explorar más a fondo.