Hoy en día, las empresas exploran cada vez más formas de aprovechar los modelos de lenguajes grandes (LLM) para impulsar la productividad y crear aplicaciones inteligentes. Sin embargo, muchas de las opciones de LLM disponibles son modelos genéricos que no están diseñados para necesidades empresariales especializadas, como análisis de datos, codificación y automatización de tareas. Ingresar Copo de nieve ártico – un LLM de última generación diseñado y optimizado específicamente para casos de uso empresarial básicos.
Desarrollado por el equipo de investigación de IA de Snowflake, Arctic traspasa los límites de lo posible con una formación eficiente, rentabilidad y un nivel de apertura incomparable. Este modelo revolucionario sobresale en puntos de referencia empresariales clave y requiere mucha menos potencia informática en comparación con los LLM existentes. Profundicemos en lo que hace que Arctic cambie las reglas del juego para la IA empresarial.
Inteligencia empresarial redefinida En esencia, Arctic se centra en ofrecer un rendimiento excepcional en métricas que realmente importan para las empresas: codificación, consultas SQL, seguimiento de instrucciones complejas y producción de resultados fundamentados y basados en hechos. Snowflake ha combinado estas capacidades críticas en una novela "inteligencia empresarialmétrica.
los resultados hablan por si mismos. Arctic cumple o supera a modelos como LLAMA 7B y LLAMA 70B en los puntos de referencia de inteligencia empresarial y utiliza menos de la mitad del presupuesto informático para capacitación. Sorprendentemente, a pesar de utilizar 17 veces menos recursos informáticos que LLAMA 70B, Arctic logra paridad en pruebas especializadas como codificación (HumanEval+, MBPP+), generación de SQL (Spider) y seguimiento de instrucciones (IFEval).
Pero la destreza de Arctic va más allá de simplemente superar los estándares empresariales. Mantiene un rendimiento sólido en la comprensión del lenguaje general, el razonamiento y la aptitud matemática en comparación con modelos entrenados con presupuestos de computación exponencialmente más altos como DBRX. Esta capacidad holística convierte a Arctic en una opción inmejorable para abordar las diversas necesidades de IA de una empresa.
La innovación
Transformador híbrido de MoE denso Entonces, ¿cómo construyó el equipo de Snowflake un LLM tan increíblemente capaz pero eficiente? La respuesta está en la vanguardista arquitectura de transformador híbrido de mezcla densa de expertos (MoE) de Arctic.
Los modelos tradicionales de transformadores densos se vuelven cada vez más costosos de entrenar a medida que crece su tamaño, y los requisitos computacionales aumentan linealmente. El diseño del MoE ayuda a evitar esto al utilizar múltiples redes de retroalimentación paralelas (expertos) y activar solo un subconjunto para cada token de entrada.
Sin embargo, simplemente usar una arquitectura MoE no es suficiente: Arctic combina ingeniosamente las fortalezas de los componentes densos y MoE. Combina un codificador de transformador denso de 10 mil millones de parámetros con una capa de perceptrón multicapa (MLP) residual MoE experto. Este modelo híbrido de MoE denso suma un total de 128 mil millones de parámetros, pero solo 480 mil millones están activos en un momento dado utilizando la activación de los 17 primeros.
Las implicaciones son profundas: Arctic logra una calidad y capacidad de modelo sin precedentes y al mismo tiempo sigue siendo notablemente eficiente en computación durante el entrenamiento y la inferencia. Por ejemplo, Arctic tiene un 50% menos de parámetros activos que modelos como DBRX durante la inferencia.
Pero la arquitectura modelo es sólo una parte de la historia. La excelencia del Ártico es la culminación de varias técnicas y conocimientos pioneros desarrollados por el equipo de investigación de Snowflake:
- Plan de estudios de datos de capacitación centrado en la empresa A través de una extensa experimentación, el equipo descubrió que las habilidades genéricas como el razonamiento de sentido común deben aprenderse temprano, mientras que las especializaciones más complejas como la codificación y SQL se adquieren mejor más adelante en el proceso de capacitación. El plan de estudios de datos de Arctic sigue un enfoque de tres etapas que imita las progresiones del aprendizaje humano.
Los primeros teratokens se centran en construir una base general amplia. Los próximos 1.5 teratokens se concentran en el desarrollo de habilidades empresariales a través de datos adaptados para SQL, tareas de codificación y más. Los teratokens finales refinan aún más las especializaciones del Ártico utilizando conjuntos de datos refinados.
- Opciones arquitectónicas óptimas Si bien los MoE prometen una mejor calidad por cómputo, elegir las configuraciones correctas es crucial, pero aún no se comprende bien. A través de una investigación detallada, Snowflake llegó a una arquitectura que emplea a 128 expertos con los 2 mejores controlando cada capa después de evaluar las compensaciones entre calidad y eficiencia.
Aumentar el número de expertos proporciona más combinaciones, mejorando la capacidad del modelo. Sin embargo, esto también aumenta los costos de comunicación, por lo que Snowflake eligió 128 expertos "condensados" cuidadosamente diseñados y activados a través de la activación de los 2 primeros como equilibrio óptimo.
- Codiseño del sistema Pero incluso una arquitectura de modelo óptima puede verse socavada por cuellos de botella en el sistema. Así que el equipo de Snowflake también innovó aquí: codiseñando la arquitectura del modelo de la mano con los sistemas de inferencia y entrenamiento subyacentes.
Para lograr una capacitación eficiente, los componentes denso y MoE se estructuraron para permitir la superposición de comunicación y computación, ocultando importantes gastos generales de comunicación. Por el lado de la inferencia, el equipo aprovechó las innovaciones de NVIDIA para permitir una implementación altamente eficiente a pesar de la escala del Ártico.
Técnicas como la cuantificación del FP8 permiten ajustar el modelo completo en un único nodo de GPU para realizar inferencias interactivas. Los lotes más grandes aprovechan las capacidades de paralelismo de Arctic en múltiples nodos y, al mismo tiempo, mantienen una eficiencia informática impresionante gracias a sus parámetros activos compactos de 17B.
Con una licencia Apache 2.0, los pesos y el código de Arctic están disponibles sin restricciones para cualquier uso personal, de investigación o comercial. Pero Snowflake ha ido mucho más allá al ofrecer acceso abierto a sus recetas de datos completas, implementaciones de modelos, consejos y los profundos conocimientos de investigación que impulsan al Ártico.
Los "Libro de cocina ártico”es una base de conocimientos integral que cubre todos los aspectos de la construcción y optimización de un modelo MoE a gran escala como Arctic. Destila aprendizajes clave sobre el abastecimiento de datos, el diseño de arquitectura de modelos, el codiseño de sistemas, esquemas optimizados de entrenamiento/inferencia y más.
Desde identificar planes de estudios de datos óptimos hasta diseñar MoE y al mismo tiempo cooptimizar compiladores, programadores y hardware, este amplio conjunto de conocimientos democratiza habilidades que antes estaban confinadas a los laboratorios de inteligencia artificial de élite. El Arctic Cookbook acelera las curvas de aprendizaje y permite a las empresas, investigadores y desarrolladores de todo el mundo crear sus propios LLM rentables y personalizados para prácticamente cualquier caso de uso.
Empezando con el Ártico
Para las empresas interesadas en aprovechar el Ártico, Snowflake ofrece múltiples caminos para comenzar rápidamente:
Inferencia sin servidor: los clientes de Snowflake pueden acceder al modelo Arctic de forma gratuita en Snowflake Cortex, la plataforma de inteligencia artificial totalmente administrada de la compañía. Más allá de eso, Arctic está disponible en todos los catálogos de modelos principales, como AWS, Microsoft Azure, NVIDIA y más.
Empezar desde cero: los pesos y las implementaciones del modelo de código abierto permiten a los desarrolladores integrar Arctic directamente en sus aplicaciones y servicios. El repositorio de Arctic proporciona ejemplos de código, tutoriales de implementación, recetas de ajuste y más.
Cree modelos personalizados: gracias a las guías exhaustivas del Arctic Cookbook, los desarrolladores pueden crear sus propios modelos MoE personalizados desde cero, optimizados para cualquier caso de uso especializado, utilizando lo aprendido del desarrollo de Arctic.
Una nueva era de IA empresarial abierta Arctic es más que simplemente otro poderoso modelo de lenguaje: presagia una nueva era de capacidades de IA abiertas, rentables y especializadas diseñadas específicamente para la empresa.
Desde revolucionar el análisis de datos y la productividad de la codificación hasta impulsar la automatización de tareas y aplicaciones más inteligentes, el ADN empresarial de Arctic lo convierte en una opción inmejorable frente a los LLM genéricos. Y al abrir el código fuente no solo del modelo sino de todo el proceso de investigación y desarrollo detrás de él, Snowflake está fomentando una cultura de colaboración que elevará todo el ecosistema de IA.
A medida que las empresas adoptan cada vez más la IA generativa, Arctic ofrece un plan audaz para desarrollar modelos objetivamente superiores para cargas de trabajo de producción y entornos empresariales. Su confluencia de investigación de vanguardia, eficiencia inigualable y un espíritu abierto y firme establece un nuevo punto de referencia en la democratización del potencial transformador de la IA.
Aquí hay una sección con ejemplos de código sobre cómo usar el modelo Snowflake Arctic:
Práctica con el Ártico
Ahora que hemos cubierto lo que hace que Arctic sea realmente innovador, profundicemos en cómo los desarrolladores y científicos de datos pueden comenzar a poner en práctica este potente modelo.
Desde el primer momento, Arctic está disponible previamente capacitado y listo para implementarse a través de los principales centros de modelos como Hugging Face y plataformas de inteligencia artificial asociadas. Pero su verdadero poder surge al personalizarlo y ajustarlo para sus casos de uso específicos.
La licencia Apache 2.0 de Arctic brinda total libertad para integrarla en sus aplicaciones, servicios o flujos de trabajo de IA personalizados. Veamos algunos ejemplos de código usando la biblioteca de transformadores para comenzar:
Inferencia básica con el Ártico
Para casos de uso de generación rápida de texto, podemos cargar Arctic y ejecutar inferencia básica muy fácilmente:
from transformers import AutoTokenizer, AutoModelForCausalLM
# Load the tokenizer and model
tokenizer = AutoTokenizer.from_pretrained("Snowflake/snowflake-arctic-instruct")
model = AutoModelForCausalLM.from_pretrained("Snowflake/snowflake-arctic-instruct")
# Create a simple input and generate text
input_text = "Here is a basic question: What is the capital of France?"
input_ids = tokenizer.encode(input_text, return_tensors="pt")
# Generate response with Arctic
output = model.generate(input_ids, max_length=150, do_sample=True, top_k=50, top_p=0.95, num_return_sequences=1)
generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
print(generated_text)
Esto debería generar algo como:
"La capital de Francia es París. París es la ciudad más grande de Francia y el centro económico, político y cultural del país. Es el hogar de lugares famosos como la Torre Eiffel, el museo del Louvre y la Catedral de Notre-Dame”.
Como puede ver, Arctic comprende perfectamente la consulta y proporciona una respuesta detallada y fundamentada aprovechando sus sólidas capacidades de comprensión del lenguaje.
Ajuste fino para tareas especializadas
Si bien es impresionante desde el primer momento, Arctic realmente brilla cuando se personaliza y ajusta sus datos patentados para tareas especializadas. Snowflake ha proporcionado recetas extensas que cubren:
- Selección de datos de entrenamiento de alta calidad adaptados a su caso de uso
- Implementación de currículos de capacitación personalizados en varias etapas
- Aprovechar los enfoques eficientes de ajuste fino de LoRA, P-Tuning o FactorizedFusion
- Optimizaciones para discernir SQL, codificación u otras habilidades empresariales clave
A continuación se muestra un ejemplo de cómo ajustar Arctic en sus propios conjuntos de datos de codificación utilizando las recetas de LoRA y Snowflake:
from transformers import AutoModelForCausalLM, AutoTokenizer
from peft import LoraConfig, get_peft_model, prepare_model_for_int8_training
# Load base Arctic model
tokenizer = AutoTokenizer.from_pretrained("Snowflake/snowflake-arctic-instruct")
model = AutoModelForCausalLM.from_pretrained("Snowflake/snowflake-arctic-instruct", load_in_8bit=True)
# Initialize LoRA configs
lora_config = LoraConfig(
r=8,
lora_alpha=16,
target_modules=["query_key_value"],
lora_dropout=0.05,
bias="none",
task_type="CAUSAL_LM"
)
# Prepare model for LoRA finetuning
model = prepare_model_for_int8_training(model)
model = get_peft_model(model, lora_config)
# Your coding datasets
data = load_coding_datasets()
# Fine-tune with Snowflake's recipes
train(model, data, ...)
Este código ilustra cómo puede cargar Arctic sin esfuerzo, inicializar una configuración LoRA adaptada para la generación de código y luego ajustar el modelo en sus conjuntos de datos de codificación patentados aprovechando la guía de Snowflake.
Personalizado y optimizado, Arctic se convierte en una potencia privada adaptada para ofrecer un rendimiento inigualable en los flujos de trabajo empresariales principales y en las necesidades de las partes interesadas.