Inteligência artificial

Snowflake Arctic: o LLM de ponta para IA empresarial

Publicado 25 de abril de 2024

Aayush Mittal Mittal

Snowflake Arctic: o LLM de ponta para IA empresarial

As empresas hoje estão explorando cada vez mais maneiras de aproveitar grandes modelos de linguagem (LLMs) para aumentar a produtividade e criar aplicações inteligentes. No entanto, muitas das opções de LLM disponíveis são modelos genéricos não adaptados para necessidades empresariais especializadas, como análise de dados, codificação e automação de tarefas. Digitar Floco de neve Ártico – um LLM de última geração projetado e otimizado propositalmente para os principais casos de uso corporativo.

Desenvolvido pela equipe de pesquisa de IA da Snowflake, o Arctic expande os limites do possível com treinamento eficiente, custo-benefício e um nível incomparável de abertura. Este modelo revolucionário se destaca em benchmarks empresariais importantes, exigindo muito menos poder computacional em comparação com os LLMs existentes. Vamos analisar o que torna o Arctic um divisor de águas para a IA empresarial.

Inteligência Empresarial Redefinida Em sua essência, o Arctic está focado em fornecer desempenho excepcional em métricas que realmente importam para as empresas – codificação, consulta SQL, acompanhamento de instruções complexas e produção de resultados fundamentados e baseados em fatos. Snowflake combinou esses recursos críticos em um romance “inteligência empresarial” métrica.

Os resultados falam por si. A Arctic atende ou supera modelos como LLAMA 7B e LLAMA 70B em benchmarks de inteligência empresarial, usando menos da metade do orçamento de computação para treinamento. Notavelmente, apesar de utilizar 17 vezes menos recursos computacionais que o LLAMA 70B, o Arctic alcança paridade em testes especializados como codificação (HumanEval+, MBPP+), geração de SQL (Spider) e acompanhamento de instruções (IFEval).

Mas a proeza do Arctic vai além de apenas superar benchmarks corporativos. Ele mantém um desempenho sólido em compreensão geral da linguagem, raciocínio e aptidão matemática em comparação com modelos treinados com orçamentos computacionais exponencialmente maiores, como o DBRX. Essa capacidade holística torna o Arctic uma escolha imbatível para atender às diversas necessidades de IA de uma empresa.

A Inovação

Transformador Híbrido Denso-MoE. Como a equipe da Snowflake construiu um LLM tão incrivelmente capaz e eficiente? A resposta está na arquitetura de ponta do Transformador Híbrido de Mistura Densa de Especialistas (MoE) da Arctic.

Os modelos tradicionais de transformadores densos tornam-se cada vez mais caros para treinar à medida que seu tamanho aumenta, com os requisitos computacionais aumentando linearmente. O design do MoE ajuda a contornar isso, utilizando múltiplas redes feed-forward paralelas (especialistas) e ativando apenas um subconjunto para cada token de entrada.

No entanto, simplesmente usar uma arquitetura MoE não é suficiente – o Arctic combina engenhosamente os pontos fortes dos componentes denso e MoE. Ele combina um codificador de transformador denso de 10 bilhões de parâmetros com uma camada perceptron multicamadas (MLP) MoE residual de 128 especialistas. Este modelo híbrido denso-MoE totaliza 480 bilhões de parâmetros, mas apenas 17 bilhões estão ativos em um dado momento usando o gating top-2.

As implicações são profundas – o Arctic alcança qualidade e capacidade de modelo sem precedentes, ao mesmo tempo que permanece notavelmente eficiente em termos de computação durante o treinamento e inferência. Por exemplo, o Arctic tem 50% menos parâmetros ativos do que modelos como o DBRX durante a inferência.

Mas a arquitetura do modelo é apenas uma parte da história. A excelência do Arctic é o resultado de diversas técnicas e insights pioneiros desenvolvidos pela equipe de pesquisa da Snowflake:

Currículo de Treinamento de Dados com Foco Empresarial. Por meio de ampla experimentação, a equipe descobriu que habilidades genéricas, como raciocínio lógico, devem ser aprendidas precocemente, enquanto especializações mais complexas, como codificação e SQL, são melhor adquiridas posteriormente no processo de treinamento. O currículo de dados da Arctic segue uma abordagem de três etapas, que imita a progressão da aprendizagem humana.

Os primeiros teratokens concentram-se na construção de uma ampla base geral. Os próximos 1.5 teratokens concentram-se no desenvolvimento de habilidades empresariais por meio de dados personalizados para SQL, tarefas de codificação e muito mais. Os teratokens finais aprimoram ainda mais as especializações da Arctic, utilizando conjuntos de dados refinados.

Escolhas arquitetônicas ideais Embora os MoEs prometam melhor qualidade por computação, escolher as configurações corretas é crucial, mas pouco compreendido. Por meio de pesquisas detalhadas, a Snowflake chegou a uma arquitetura que emprega 128 especialistas com os 2 primeiros em cada camada após avaliar as compensações entre qualidade e eficiência.

Aumentar o número de especialistas proporciona mais combinações, aumentando a capacidade do modelo. No entanto, isso também aumenta os custos de comunicação, então a Snowflake escolheu 128 especialistas “condensados” cuidadosamente projetados e ativados por meio de gateway top-2 como o equilíbrio ideal.

Co-design do sistema Mas mesmo uma arquitetura de modelo ideal pode ser prejudicada por gargalos do sistema. Portanto, a equipe da Snowflake também inovou aqui – co-projetando a arquitetura do modelo lado a lado com os sistemas subjacentes de treinamento e inferência.

Para um treinamento eficiente, os componentes denso e MoE foram estruturados para permitir comunicação e computação sobrepostas, ocultando sobrecargas substanciais de comunicação. No que diz respeito à inferência, a equipe aproveitou as inovações da NVIDIA para permitir uma implantação altamente eficiente, apesar da escala do Ártico.

Técnicas como a quantização FP8 permitem ajustar o modelo completo em um único nó de GPU para inferência interativa. Lotes maiores utilizam os recursos de paralelismo do Arctic em vários nós, mantendo uma eficiência computacional impressionante graças aos seus 17 bilhões de parâmetros ativos compactos.

Com uma licença Apache 2.0, os pesos e o código do Arctic estão disponíveis sem restrições para qualquer uso pessoal, de pesquisa ou comercial. Mas a Snowflake foi muito além, disponibilizando de código aberto suas receitas de dados completas, implementações de modelos, dicas e os insights de pesquisa aprofundados que impulsionam o Arctic.

O "Livro de receitas do Ártico”é uma base de conhecimento abrangente que cobre todos os aspectos da construção e otimização de um modelo MoE em grande escala como o Ártico. Ele destila os principais aprendizados em fonte de dados, design de arquitetura de modelo, co-design de sistema, esquemas de treinamento/inferência otimizados e muito mais.

Desde a identificação de currículos de dados ideais até a arquitetura de MoEs e, ao mesmo tempo, co-otimização de compiladores, programadores e hardware – este extenso corpo de conhecimento democratiza habilidades anteriormente confinadas a laboratórios de IA de elite. O Arctic Cookbook acelera as curvas de aprendizagem e capacita empresas, pesquisadores e desenvolvedores em todo o mundo a criar seus próprios LLMs personalizados e econômicos para praticamente qualquer caso de uso.

Primeiros passos com o Ártico

Para empresas interessadas em aproveitar o Ártico, a Snowflake oferece vários caminhos para começar rapidamente:

Inferência sem servidor: os clientes da Snowflake podem acessar o modelo Arctic gratuitamente no Snowflake Cortex, a plataforma de IA totalmente gerenciada da empresa. Além disso, o Arctic está disponível em todos os principais catálogos de modelos, como AWS, Microsoft Azure, NVIDIA e outros.

Comece do zero: os pesos e implementações do modelo de código aberto permitem que os desenvolvedores integrem diretamente o Arctic em seus aplicativos e serviços. O repositório Arctic fornece exemplos de código, tutoriais de implantação, receitas de ajuste fino e muito mais.

Crie modelos personalizados: graças aos guias exaustivos do Arctic Cookbook, os desenvolvedores podem criar seus próprios modelos MoE personalizados do zero, otimizados para qualquer caso de uso especializado usando aprendizados do desenvolvimento do Arctic.

Uma nova era de IA empresarial aberta O Arctic é mais do que apenas outro modelo de linguagem poderoso – ele anuncia uma nova era de recursos de IA abertos, econômicos e especializados, desenvolvidos especificamente para a empresa.

Da revolução na análise de dados e na produtividade da codificação ao fortalecimento da automação de tarefas e de aplicativos mais inteligentes, o DNA empresarial da Arctic a torna uma escolha imbatível em relação aos LLMs genéricos. E ao tornar público não apenas o modelo, mas todo o processo de P&D por trás dele, a Snowflake está fomentando uma cultura de colaboração que elevará todo o ecossistema de IA.

À medida que as empresas adotam cada vez mais a IA generativa, a Arctic oferece um modelo ousado para o desenvolvimento de modelos objetivamente superiores para cargas de trabalho de produção e ambientes corporativos. Sua confluência de pesquisa de ponta, eficiência incomparável e uma filosofia aberta e inabalável estabelece um novo padrão na democratização do potencial transformador da IA.

Aqui está uma seção com exemplos de código sobre como usar o modelo Snowflake Arctic:

Prática com o Ártico

Agora que abordamos o que torna o Arctic verdadeiramente inovador, vamos ver como desenvolvedores e cientistas de dados podem começar a colocar esse modelo poderoso em prática.
Pronto para uso, o Arctic está disponível pré-treinado e pronto para implantação por meio de grandes centros de modelos, como Hugging Face e plataformas de IA de parceiros. Mas seu verdadeiro poder surge ao personalizá-lo e ajustá-lo para seus casos de uso específicos.

A licença Apache 2.0 da Arctic oferece total liberdade para integrá-la aos seus aplicativos, serviços ou fluxos de trabalho de IA personalizados. Vamos analisar alguns exemplos de código usando a biblioteca transformers para você começar:
Inferência Básica com o Ártico

Para casos de uso de geração rápida de texto, podemos carregar o Arctic e executar inferência básica com muita facilidade:

from transformers import AutoTokenizer, AutoModelForCausalLM

# Load the tokenizer and model
tokenizer = AutoTokenizer.from_pretrained("Snowflake/snowflake-arctic-instruct")
model = AutoModelForCausalLM.from_pretrained("Snowflake/snowflake-arctic-instruct")

# Create a simple input and generate text
input_text = "Here is a basic question: What is the capital of France?"
input_ids = tokenizer.encode(input_text, return_tensors="pt")

# Generate response with Arctic
output = model.generate(input_ids, max_length=150, do_sample=True, top_k=50, top_p=0.95, num_return_sequences=1)
generated_text = tokenizer.decode(output[0], skip_special_tokens=True)

print(generated_text)

Isso deve gerar algo como:

A capital da França é Paris. Paris é a maior cidade da França e o centro econômico, político e cultural do país. É lar de monumentos famosos como a Torre Eiffel, o Museu do Louvre e a Catedral de Notre-Dame.

Como você pode ver, o Arctic entende perfeitamente a consulta e fornece uma resposta detalhada e fundamentada, aproveitando seus robustos recursos de compreensão de linguagem.

Ajuste fino para tarefas especializadas

Embora impressionante, o Arctic realmente brilha quando personalizado e ajustado em seus dados proprietários para tarefas especializadas. Snowflake forneceu extensas receitas cobrindo:

Curadoria de dados de treinamento de alta qualidade adaptados ao seu caso de uso
Implementação de currículos de treinamento personalizados em vários estágios
Aproveitando abordagens eficientes de ajuste fino LoRA, P-Tuning ou FactorizedFusion
Otimizações para discernir SQL, codificação ou outras habilidades empresariais importantes

Aqui está um exemplo de como ajustar o Arctic em seus próprios conjuntos de dados de codificação usando as receitas do LoRA e do Snowflake:

from transformers import AutoModelForCausalLM, AutoTokenizer
from peft import LoraConfig, get_peft_model, prepare_model_for_int8_training

# Load base Arctic model
tokenizer = AutoTokenizer.from_pretrained("Snowflake/snowflake-arctic-instruct")
model = AutoModelForCausalLM.from_pretrained("Snowflake/snowflake-arctic-instruct", load_in_8bit=True)

# Initialize LoRA configs
lora_config = LoraConfig(
r=8,
lora_alpha=16,
target_modules=["query_key_value"],
lora_dropout=0.05,
bias="none",
task_type="CAUSAL_LM"
)

# Prepare model for LoRA finetuning
model = prepare_model_for_int8_training(model)
model = get_peft_model(model, lora_config)

# Your coding datasets
data = load_coding_datasets()

# Fine-tune with Snowflake's recipes
train(model, data, ...)

Este código ilustra como você pode carregar o Arctic sem esforço, inicializar uma configuração LoRA personalizada para geração de código e, em seguida, ajustar o modelo em seus conjuntos de dados de codificação proprietários, aproveitando a orientação da Snowflake.

Personalizado e ajustado, o Arctic se torna uma potência privada ajustada para oferecer desempenho incomparável em seus principais fluxos de trabalho corporativos e nas necessidades das partes interessadas.

Ciclo de Inovação Rápida do Ártico

Um dos aspectos mais impressionantes do Arctic é o ritmo alucinante com que a equipe de pesquisa de IA da Snowflake concebeu, desenvolveu e lançou este modelo de ponta para o mundo. Da concepção ao lançamento em código aberto, todo o projeto Arctic levou menos de três meses e utilizou apenas cerca de um oitavo do orçamento computacional típico para o treinamento de modelos de linguagem de grande porte semelhantes.

Essa capacidade de iterar, inovar e produzir rapidamente pesquisas de IA de ponta é realmente notável. Ela demonstra as profundas capacidades técnicas da Snowflake e posiciona a empresa para expandir continuamente os limites no desenvolvimento de novos recursos de IA otimizados para empresas.

A família do Ártico e incorporações

O Arctic é apenas o começo das ambições da Snowflake no segmento de LLM empresarial. A empresa já tornou pública a família Snowflake Arctic Embed, com modelos de incorporação de texto líderes do setor, otimizados para desempenho de recuperação em diversos perfis de tamanho.

Conforme ilustrado abaixo, os modelos Arctic Embed alcançam precisão de recuperação de última geração no respeitado benchmark MTEB (recuperação de texto), superando outros modelos de incorporação líderes, incluindo ofertas fechadas de grandes gigantes da tecnologia.

[Inserir imagem mostrando resultados de benchmark de recuperação MTEB para modelos Arctic Embed]

Esses modelos de incorporação complementam o Arctic LLM e permitem que as empresas criem soluções poderosas de resposta a perguntas e geração aumentada de recuperação a partir de uma pilha integrada de código aberto.

Mas o roteiro da Snowflake vai muito além do Arctic e de seus embeddings. Os pesquisadores de IA da empresa estão trabalhando arduamente para expandir a família Arctic com novos modelos adaptados para tarefas multimodais, fala, vídeo e recursos mais avançados – todos desenvolvidos com os mesmos princípios de especialização, eficiência e abertura.

Parcerias para um ecossistema de IA aberto A Snowflake entende que concretizar todo o potencial da IA aberta e de nível empresarial requer o cultivo de um rico ecossistema de parcerias em toda a comunidade de IA. O lançamento do Ártico já galvanizou colaborações com grandes plataformas e fornecedores:

A NVIDIA firmou uma parceria estreita com a Snowflake para otimizar o Arctic para uma implantação eficiente, utilizando a pilha de inferência de IA de ponta da NVIDIA, incluindo TensorRT, Triton e muito mais. Isso permite que as empresas atendam o Arctic em escala e com boa relação custo-benefício.

Hugging Face, o principal centro de modelos de código aberto, acolheu o Arctic em suas bibliotecas e repositórios de modelos. Isso permite a integração perfeita do Arctic nos fluxos de trabalho e aplicativos de IA existentes baseados no Hugging Face.

Plataformas como Replicate, SageMaker e outras mudaram rapidamente para oferecer demonstrações hospedadas, APIs e caminhos de integração fluentes para o Ártico, acelerando sua adoção.

O código aberto impulsionou o desenvolvimento do Arctic, e ecossistemas abertos permanecem essenciais para sua evolução. A Snowflake está comprometida em promover uma colaboração rica com pesquisadores, desenvolvedores, parceiros e empresas em todo o mundo para expandir os limites do que é possível com modelos de IA abertos e especializados.

Tópicos relacionados:Pesquisa de IA ártico Empresas LLM Mistura de Especialistas Floco de neve transformador

A seguir

Mini-Gemini: Explorando o potencial de modelos de linguagem de visão multimodal

Não Perca

AIOS: Sistema Operacional para Agentes LLM

Aayush Mittal

Passei os últimos cinco anos mergulhando no fascinante mundo do Machine Learning e Deep Learning. Minha paixão e experiência me levaram a contribuir para mais de 50 projetos diversos de engenharia de software, com foco particular em AI/ML. Minha curiosidade contínua também me atraiu para o Processamento de Linguagem Natural, um campo que estou ansioso para explorar mais.