Współczesne przedsiębiorstwa coraz częściej badają sposoby wykorzystania dużych modeli językowych (LLM) w celu zwiększenia produktywności i tworzenia inteligentnych aplikacji. Jednak wiele dostępnych opcji LLM to modele ogólne, które nie są dostosowane do wyspecjalizowanych potrzeb przedsiębiorstwa, takich jak analiza danych, kodowanie i automatyzacja zadań. Wchodzić Arktyka płatka śniegu – najnowocześniejsze rozwiązanie LLM celowo zaprojektowane i zoptymalizowane pod kątem podstawowych zastosowań w przedsiębiorstwie.
Opracowany przez zespół badawczy ds. sztucznej inteligencji w Snowflake, Arctic przesuwa granice możliwości dzięki efektywnemu szkoleniu, opłacalności i niezrównanemu poziomowi otwartości. Ten rewolucyjny model doskonale sprawdza się w kluczowych testach porównawczych dla przedsiębiorstw, wymagając jednocześnie znacznie mniejszej mocy obliczeniowej w porównaniu z istniejącymi modelami LLM. Przyjrzyjmy się bliżej temu, co sprawia, że Arctic jest przełomem w dziedzinie sztucznej inteligencji w przedsiębiorstwach.
Nowa definicja inteligencji korporacyjnej W swojej istocie Arctic skupia się laserowo na zapewnianiu wyjątkowej wydajności w zakresie wskaźników, które naprawdę mają znaczenie dla przedsiębiorstw – kodowania, wykonywania zapytań SQL, wykonywania złożonych instrukcji i tworzenia ugruntowanych, opartych na faktach wyników. Snowflake połączył te krytyczne możliwości w powieść „inteligencja przedsiębiorstw” metryka.
Wyniki mówią same za siebie. Arctic osiąga lub przewyższa modele takie jak LLAMA 7B i LLAMA 70B w testach porównawczych inteligencji korporacyjnej, zużywając przy tym mniej niż połowę budżetu obliczeniowego na szkolenia. Co ciekawe, pomimo wykorzystania 17 razy mniej zasobów obliczeniowych niż LLAMA 70B, Arctic osiąga parzystość w specjalistycznych testach, takich jak kodowanie (HumanEval+, MBPP+), generowanie SQL (Spider) i wykonywanie instrukcji (IFEval).
Ale możliwości Arctic wykraczają poza samo osiąganie wyników w testach porównawczych przedsiębiorstw. Utrzymuje on wysoką wydajność w zakresie rozumienia języka ogólnego, rozumowania i zdolności matematycznych w porównaniu z modelami trenowanymi z wykładniczo wyższymi budżetami obliczeniowymi, takimi jak DBRX. Ta holistyczna funkcjonalność sprawia, że Arctic jest bezkonkurencyjnym wyborem, jeśli chodzi o zaspokojenie zróżnicowanych potrzeb przedsiębiorstw w zakresie sztucznej inteligencji.
Innowacja
Transformator hybrydowy Dense-MoE Jak więc zespół Snowflake zbudował tak niesamowicie wydajny, a jednocześnie wydajny LLM? Odpowiedź leży w najnowocześniejszej architekturze transformatora hybrydowego Dense Mixture-of-Experts (MoE) firmy Arctic.
Tradycyjne modele gęstych transformatorów stają się coraz bardziej kosztowne w uczeniu wraz ze wzrostem ich rozmiarów, a wymagania obliczeniowe rosną liniowo. Projekt Ministerstwa Środowiska pomaga obejść ten problem, wykorzystując wiele równoległych sieci ze sprzężeniem zwrotnym (eksperci) i aktywując tylko podzbiór dla każdego tokena wejściowego.
Jednak samo zastosowanie architektury MoE nie wystarczy – Arctic w pomysłowy sposób łączy zalety komponentów gęstych i MoE. Łączy on 10-miliardowy koder transformatora gęstego z 128-warstwową warstwą perceptronu wielowarstwowego (MLP) MoE o eksperckim resztkowym MoE. Ten hybrydowy model gęstego MoE obejmuje łącznie 480 miliardów parametrów, ale tylko 17 miliardów jest aktywnych w dowolnym momencie dzięki bramkowaniu top-2.
Konsekwencje są głębokie – Arctic osiąga niespotykaną jakość i pojemność modelu, zachowując jednocześnie niezwykłą wydajność obliczeniową podczas uczenia i wnioskowania. Na przykład Arctic ma podczas wnioskowania o 50% mniej aktywnych parametrów niż modele takie jak DBRX.
Ale architektura modelowa to tylko część historii. Doskonałość Arctic to zwieńczenie kilku pionierskich technik i spostrzeżeń opracowanych przez zespół badawczy Snowflake:
- Program nauczania danych zorientowany na przedsiębiorstwa. Poprzez szeroko zakrojone eksperymenty zespół odkrył, że ogólne umiejętności, takie jak rozumowanie oparte na zdrowym rozsądku, należy nabywać na wczesnym etapie, natomiast bardziej złożone specjalizacje, takie jak kodowanie i SQL, najlepiej nabywać na późniejszym etapie procesu szkolenia. Program nauczania danych firmy Arctic opiera się na trzyetapowym podejściu, naśladującym postępy w uczeniu się człowieka.
Pierwsze teratokena koncentruje się na budowaniu szerokiej, ogólnej bazy. Kolejne 1.5 teratokena koncentruje się na rozwijaniu umiejętności przedsiębiorczych poprzez dane dostosowane do SQL, zadania związane z kodowaniem i nie tylko. Ostatnie teratokena dodatkowo udoskonalają specjalizacje Arctic za pomocą udoskonalonych zestawów danych.
- Optymalne wybory architektoniczne Chociaż MoE obiecują lepszą jakość obliczeń, wybór odpowiednich konfiguracji jest kluczowy, ale słabo poznany. Dzięki szczegółowym badaniom firma Snowflake wybrała architekturę zatrudniającą 128 ekspertów z 2 najlepszymi bramkami dla każdej warstwy po ocenie kompromisów między jakością a wydajnością.
Zwiększenie liczby ekspertów zapewnia więcej kombinacji, zwiększając wydajność modelu. Jednak podnosi to również koszty komunikacji, więc Snowflake wylądował na 128 starannie zaprojektowanych „skondensowanych” ekspertach aktywowanych poprzez bramkowanie 2 najlepszych, co stanowiło optymalną równowagę.
- Współprojektowanie systemu Jednak nawet optymalna architektura modelu może zostać zakłócona przez wąskie gardła systemu. Dlatego zespół Snowflake również tutaj wprowadził innowacje – współprojektując architekturę modelu ręka w rękę z podstawowymi systemami uczenia i wnioskowania.
Aby zapewnić efektywne szkolenie, komponenty „dense” i „MoE” zostały skonstruowane tak, aby umożliwić nakładanie się komunikacji i obliczeń, ukrywając znaczne obciążenie komunikacyjne. Po stronie wnioskowania, zespół wykorzystał innowacje firmy NVIDIA, aby umożliwić wysoce wydajne wdrożenie, pomimo skali Arctic.
Techniki takie jak kwantyzacja FP8 pozwalają na dopasowanie całego modelu do pojedynczego węzła GPU, co umożliwia interaktywne wnioskowanie. Większe partie danych wykorzystują możliwości paralelizmu Arctic na wielu węzłach, zachowując jednocześnie imponującą wydajność obliczeniową dzięki kompaktowym, aktywnym parametrom 17 mld.
Dzięki licencji Apache 2.0 wagi i kod Arctic są dostępne bez ograniczeń do dowolnego użytku osobistego, badawczego lub komercyjnego. Snowflake poszedł jednak o wiele dalej, udostępniając na zasadzie open source kompletne receptury danych, implementacje modeli, wskazówki i dogłębne analizy stanowiące podstawę Arctic.
"Arktyczna książka kucharska” to obszerna baza wiedzy obejmująca każdy aspekt budowania i optymalizacji wielkoskalowego modelu MoE, takiego jak Arctic. Wykorzystuje kluczowe wnioski z zakresu pozyskiwania danych, projektowania architektury modelu, wspólnego projektowania systemów, zoptymalizowanych schematów uczenia/wnioskowania i nie tylko.
Od identyfikacji optymalnych programów nauczania danych po projektowanie MoE przy jednoczesnej optymalizacji kompilatorów, programów planujących i sprzętu – ten obszerny zasób wiedzy demokratyzuje umiejętności, które wcześniej były ograniczone do elitarnych laboratoriów AI. Arctic Cookbook przyspiesza naukę i umożliwia przedsiębiorstwom, badaczom i programistom na całym świecie tworzenie własnych, opłacalnych, dostosowanych do potrzeb LLM dla praktycznie każdego przypadku użycia.
Pierwsze kroki z Arktyką
Firmom chcącym wykorzystać Arktykę Snowflake oferuje wiele możliwości szybkiego rozpoczęcia pracy:
Wnioskowanie bezserwerowe: Klienci Snowflake mogą uzyskać bezpłatny dostęp do modelu Arctic w Snowflake Cortex, w pełni zarządzanej platformie AI firmy. Ponadto Arctic jest dostępny we wszystkich głównych katalogach modeli, takich jak AWS, Microsoft Azure, NVIDIA i innych.
Zacznij od zera: wagi i implementacje modelu open source umożliwiają programistom bezpośrednią integrację Arctic z ich aplikacjami i usługami. Repozytorium Arctic zawiera próbki kodu, samouczki dotyczące wdrażania, przepisy na dostrajanie i nie tylko.
Twórz niestandardowe modele: dzięki wyczerpującym przewodnikom Arctic Cookbook deweloperzy mogą od podstaw tworzyć własne, niestandardowe modele MoE, zoptymalizowane pod kątem dowolnego specjalistycznego przypadku użycia, korzystając z wiedzy i doświadczeń zdobytych podczas prac rozwojowych firmy Arctic.
Nowa era otwartej sztucznej inteligencji dla przedsiębiorstw Arctic to coś więcej niż kolejny potężny model językowy – zwiastuje nową erę otwartych, opłacalnych i wyspecjalizowanych możliwości sztucznej inteligencji stworzonych specjalnie dla przedsiębiorstw.
Od rewolucjonizowania analityki danych i produktywności kodowania, po automatyzację zadań i inteligentniejsze aplikacje – innowacyjne podejście Arctic do biznesu sprawia, że jest to bezkonkurencyjny wybór w porównaniu z generycznymi programami LLM. Udostępniając nie tylko model, ale także cały proces badawczo-rozwojowy, Snowflake promuje kulturę współpracy, która podniesie poziom całego ekosystemu AI.
W miarę jak przedsiębiorstwa coraz częściej wdrażają generatywną sztuczną inteligencję, Arctic oferuje śmiały projekt tworzenia modeli obiektywnie lepszych dla obciążeń produkcyjnych i środowisk korporacyjnych. Połączenie najnowocześniejszych badań, niezrównanej wydajności i niezachwianej, otwartej filozofii wyznacza nowy standard w demokratyzacji transformacyjnego potencjału sztucznej inteligencji.
Poniżej znajduje się sekcja z przykładami kodu pokazującymi, jak używać modelu Snowflake Arctic:
Praktyczna znajomość Arktyki
Teraz, gdy omówiliśmy, co czyni Arctic prawdziwie przełomowym modelem, przyjrzyjmy się bliżej, w jaki sposób programiści i naukowcy zajmujący się danymi mogą zacząć wdrażać ten potężny model.
Od razu po wyjęciu z pudełka Arctic jest dostępny jako wstępnie przeszkolony i gotowy do wdrożenia za pośrednictwem głównych centrów modeli, takich jak Hugging Face i partnerskie platformy AI. Jednak jego prawdziwa moc ujawnia się podczas dostosowywania i dostrajania go do konkretnych zastosowań.
Licencja Apache 2.0 firmy Arctic zapewnia pełną swobodę integracji z aplikacjami, usługami lub niestandardowymi procesami AI. Na początek przeanalizujmy kilka przykładów kodu z wykorzystaniem biblioteki Transformers:
Podstawowe wnioski z Arktyki
W przypadkach użycia szybkiego generowania tekstu możemy bardzo łatwo załadować Arctic i przeprowadzić podstawowe wnioskowanie:
from transformers import AutoTokenizer, AutoModelForCausalLM
# Load the tokenizer and model
tokenizer = AutoTokenizer.from_pretrained("Snowflake/snowflake-arctic-instruct")
model = AutoModelForCausalLM.from_pretrained("Snowflake/snowflake-arctic-instruct")
# Create a simple input and generate text
input_text = "Here is a basic question: What is the capital of France?"
input_ids = tokenizer.encode(input_text, return_tensors="pt")
# Generate response with Arctic
output = model.generate(input_ids, max_length=150, do_sample=True, top_k=50, top_p=0.95, num_return_sequences=1)
generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
print(generated_text)
Powinno to wypisać coś takiego:
„Stolicą Francji jest Paryż. Paryż jest największym miastem we Francji oraz centrum gospodarczym, politycznym i kulturalnym kraju. Znajdują się tu słynne zabytki, takie jak Wieża Eiffla, Luwr i katedra Notre-Dame”.
Jak widać, Arctic bezproblemowo rozumie zapytanie i zapewnia szczegółową, uzasadnioną odpowiedź, wykorzystując swoje solidne możliwości rozumienia języka.
Dostosowanie do zadań specjalistycznych
Choć od razu po wyjęciu z pudełka Arctic robi wrażenie, naprawdę błyszczy, gdy zostanie dostosowany i dostrojony na podstawie Twoich zastrzeżonych danych do specjalistycznych zadań. Snowflake udostępnił obszerne przepisy obejmujące:
- Opieka nad wysokiej jakości danymi szkoleniowymi dostosowanymi do Twojego przypadku użycia
- Realizacja dostosowanych do indywidualnych potrzeb, wieloetapowych programów szkoleniowych
- Wykorzystanie wydajnych metod dostrajania LoRA, P-Tuning lubFactorizedFusion
- Optymalizacje pod kątem wymagających umiejętności SQL, kodowania i innych kluczowych umiejętności przedsiębiorstwa
Oto przykład, jak dostroić Arctic do własnych zestawów danych kodowych, korzystając z przepisów LoRA i Snowflake:
from transformers import AutoModelForCausalLM, AutoTokenizer
from peft import LoraConfig, get_peft_model, prepare_model_for_int8_training
# Load base Arctic model
tokenizer = AutoTokenizer.from_pretrained("Snowflake/snowflake-arctic-instruct")
model = AutoModelForCausalLM.from_pretrained("Snowflake/snowflake-arctic-instruct", load_in_8bit=True)
# Initialize LoRA configs
lora_config = LoraConfig(
r=8,
lora_alpha=16,
target_modules=["query_key_value"],
lora_dropout=0.05,
bias="none",
task_type="CAUSAL_LM"
)
# Prepare model for LoRA finetuning
model = prepare_model_for_int8_training(model)
model = get_peft_model(model, lora_config)
# Your coding datasets
data = load_coding_datasets()
# Fine-tune with Snowflake's recipes
train(model, data, ...)
Ten kod ilustruje, jak można bez wysiłku załadować Arctic, zainicjować konfigurację LoRA dostosowaną do generowania kodu, a następnie dostroić model w zastrzeżonych zestawach danych kodowania, korzystając ze wskazówek Snowflake.
Dostosowany i dopracowany Arctic staje się prywatną potęgą dostosowaną do zapewniania niezrównanej wydajności w zakresie podstawowych przepływów pracy w przedsiębiorstwie i potrzeb interesariuszy.