Connect with us

Sztuczna inteligencja

Snowflake Arctic: Najnowocześniejszy LLM dla przedsiębiorstw AI

mm
Snowflake Arctic: The Cutting-Edge LLM for Enterprise AI

Przedsiębiorstwa coraz częściej poszukują sposobów na wykorzystanie dużych modeli językowych (LLM) w celu zwiększenia produktywności i tworzenia inteligentnych aplikacji. Jednak wiele dostępnych opcji LLM to modele ogólne, które nie są dostosowane do specjalistycznych potrzeb przedsiębiorstw, takich jak analiza danych, kodowanie i automatyzacja zadań. Wchodzi Snowflake Arctic – model LLM zaprojektowany i zoptymalizowany specjalnie dla podstawowych przypadków użycia przedsiębiorstw.

Zbudowany przez zespół badawczy AI w Snowflake, Arctic posuwa granice tego, co jest możliwe dzięki wydajnemu szkoleniu, efektywności kosztowej i bezprecedensowemu poziomowi otwartości. Ten rewolucyjny model wyróżnia się w kluczowych benchmarkach przedsiębiorstw, wymagając znacznie mniej mocy obliczeniowej w porównaniu z istniejącymi LLM. Przejdźmy do tego, co sprawia, że Arctic jest przełomem dla przedsiębiorstw AI.

Przedsiębiorstwowa inteligencja ponownie zdefiniowana W swojej istocie Arctic jest skoncentrowany na dostarczaniu wyjątkowych wyników w obszarach, które naprawdę mają znaczenie dla przedsiębiorstw – kodowaniu, zapytaniach SQL, skomplikowanych instrukcjach i generowaniu uzasadnionych, opartych na faktach danych wyjściowych. Snowflake połączył te krytyczne możliwości w nowy “wskaźnik inteligencji przedsiębiorstwa“.

Wyniki mówią same za siebie. Arctic spełnia lub przewyższa modele takie jak LLAMA 7B i LLAMA 70B w benchmarkach inteligencji przedsiębiorstwa, przy użyciu mniej niż połowy budżetu obliczeniowego na szkolenie. Co więcej, pomimo wykorzystania 17 razy mniej zasobów obliczeniowych niż LLAMA 70B, Arctic osiąga równość w specjalistycznych testach, takich jak kodowanie (HumanEval+, MBPP+), generowanie SQL (Spider) i instrukcje (IFEval).

Ale możliwości Arctic wykraczają poza sam udział w benchmarkach przedsiębiorstw. Utrzymuje silne wyniki w zakresie ogólnego zrozumienia języka, rozumowania i zdolności matematycznych w porównaniu z modelami szkolonymi z wykładniczo wyższymi budżetami obliczeniowymi, takimi jak DBRX. Ta holistyczna zdolność sprawia, że Arctic jest nie do pokonania w rozwiązywaniu różnorodnych potrzeb AI przedsiębiorstw.

Innowacja

Gęsty hybrydowy transformer MoE Jak zespół Snowflake zbudował taki niezwykle zdolny, a zarazem wydajny LLM? Odpowiedź leży w architekturze Arctic, wykorzystującej gęsty hybrydowy transformer MoE.

Tradycyjne gęste modele transformatora stają się coraz bardziej kosztowne w szkoleniu, gdy ich rozmiar rośnie, a wymagania obliczeniowe wzrastają liniowo. Projekt MoE pomaga ominąć ten problem, wykorzystując wiele równoległych sieci feed-forward (ekspertów) i aktywując tylko podzbiór dla każdego tokenu wejściowego.

Jednak proste wykorzystanie architektury MoE nie jest wystarczające – Arctic łączy zalety gęstych i składników MoE w sposób genialny. Łączy 10-miliardowy parametr gęstego transformatora kodera z 128-residualnym warstwowym perceptronem wielokrotnym (MLP) z ekspertem MoE. Ten gęsty model hybrydowy MoE ma łącznie 480 miliardów parametrów, ale tylko 17 miliardów jest aktywnych w dowolnym momencie przy użyciu bramki top-2.

Wnioski są głębokie – Arctic osiąga bezprecedensową jakość modelu i pojemność, pozostając nadzwyczaj wydajnym podczas szkolenia i inferencji. Na przykład, Arctic ma o 50% mniej aktywnych parametrów niż modele takie jak DBRX podczas inferencji.

Ale architektura modelu jest tylko częścią historii. Doskonałość Arctic jest kulminacją kilku przełomowych technik i spostrzeżeń opracowanych przez zespół badawczy Snowflake:

  1. Program szkoleniowy danych dla przedsiębiorstw Przez obszerny eksperyment, zespół odkrył, że umiejętności ogólne, takie jak zdrowy rozsądek, powinny być nabyte wcześnie, podczas gdy bardziej złożone specjalizacje, takie jak kodowanie i SQL, są najlepiej nabyte później w procesie szkolenia. Program szkoleniowy danych Arctic składa się z trzech etapów, naśladując postępy ludzkiej nauki.

Pierwsze teratokeny koncentrują się na budowaniu szerokiej bazy ogólnej. Następne 1,5 teratokeny skupiają się na rozwijaniu umiejętności przedsiębiorstw poprzez dane dostosowane do SQL, zadań kodowania i innych. Ostatnie teratokeny dalej doskonalą specjalizacje Arctic, wykorzystując rafinowane zestawy danych.

  1. Optymalne wybory architektoniczne Chociaż MoE obiecują lepszą jakość na jednostkę obliczeniową, wybór odpowiednich konfiguracji jest kluczowy, ale słabo rozumiany. Przez szczegółowe badania, Snowflake wybrał architekturę z 128 ekspertami z bramką top-2 na każdej warstwie, oceniając wymiany między jakością a efektywnością.

Zwiększanie liczby ekspertów zapewnia więcej kombinacji, zwiększając pojemność modelu. Jednak to również zwiększa koszty komunikacji, więc Snowflake wybrał 128 starannie zaprojektowanych “skondensowanych” ekspertów aktywowanych za pomocą bramki top-2 jako optymalny balans.

  1. Współprojekt systemu Nawet optymalna architektura modelu może być podważona przez wąskie gardła systemu. Dlatego zespół Snowflake również innowacyjnie współprojektował architekturę modelu wraz z podstawowymi systemami szkoleniowymi i inferencyjnymi.

Dla efektywnego szkolenia, gęste i składniki MoE zostały zbudowane w taki sposób, aby umożliwić nakładanie się komunikacji i obliczeń, maskując znaczne koszty komunikacji. Po stronie inferencji zespół wykorzystał innowacje NVIDII, aby umożliwić wysoce efektywną wdrożenie pomimo skali Arctic.

Techniki takie jak kwantyzacja FP8 pozwalają na umieszczenie pełnego modelu na jednym węźle GPU do interaktywnej inferencji. Większe partie angażują możliwości równoległości Arctic na wielu węzłach, pozostając imponująco efektywnymi pod względem obliczeń dzięki swoim kompaktowym 17 miliardom aktywnych parametrów.

Z licencją Apache 2.0, wagi i kod Arctic są dostępne bez ograniczeń dla każdego osobistego, badawczego lub komercyjnego użycia. Ale Snowflake poszedł o wiele dalej, udostępniając cały przepis na dane, implementacje modeli, porady i głębokie spostrzeżenia badawcze, które napędzają Arctic.

Książka kucharska Arctic” to kompleksowa baza wiedzy, która obejmuje każdy aspekt budowy i optymalizacji dużego modelu MoE, takiego jak Arctic. Destyluje kluczowe spostrzeżenia w zakresie źródła danych, projektowania architektury modelu, współprojektu systemu, optymalnych schematów szkolenia i inferencji oraz więcej.

Od identyfikacji optymalnych programów szkoleniowych danych po architekturę MoE, współoptymalizację kompilatorów, planistów i sprzętu – ta obszerna wiedza demokratyzuje umiejętności wcześniej ograniczone do elitarnych laboratoriów AI. Książka kucharska Arctic przyspiesza krzywe uczenia i upoważnia firmy, badaczy i deweloperów na całym świecie do tworzenia własnych, efektywnych kosztowo, dostosowanych LLM dla praktycznie każdego przypadku użycia.

Rozpoczęcie pracy z Arctic

Dla firm zainteresowanych wykorzystaniem Arctic, Snowflake oferuje wiele ścieżek, aby szybko rozpocząć:

Bezserwerowa inferencja: Klienci Snowflake mogą uzyskać dostęp do modelu Arctic za darmo na Snowflake Cortex, w pełni zarządzanej platformie AI. Poza tym, Arctic jest dostępny we wszystkich głównych katalogach modeli, takich jak AWS, Microsoft Azure, NVIDIA i więcej.

Rozpoczęcie od podstaw: Otwarte źródło wag modelu i implementacje pozwalają deweloperom na bezpośrednie zintegrowanie Arctic z ich aplikacjami i usługami. Repozytorium Arctic zawiera przykładowy kod, samouczki wdrożeniowe, przepisy dostrajania i więcej.

Budowanie niestandardowych modeli: Dzięki wyczerpującym przewodnikom w Książce kucharskiej Arctic, deweloperzy mogą budować własne niestandardowe modele MoE od podstaw, optymalizowane dla każdego specjalistycznego przypadku użycia, wykorzystując spostrzeżenia z rozwoju Arctic.

Nowa era otwartego AI przedsiębiorstw Arctic to więcej niż tylko kolejny potężny model językowy – zapowiada nową erę otwartych, efektywnych kosztowo i specjalistycznych możliwości AI, stworzonych specjalnie dla przedsiębiorstw.

Od rewolucjonizowania analizy danych i produktywności kodowania po napędzanie automatyzacji zadań i inteligentniejszych aplikacji, DNA przedsiębiorstwa Arctic sprawia, że jest nie do pokonania w porównaniu z ogólnymi LLM. A dzięki otwarciu nie tylko modelu, ale całego procesu badawczego i rozwojowego, Snowflake wspiera kulturę współpracy, która podniesie cały ekosystem AI.

Gdy przedsiębiorstwa coraz bardziej przyjmują generatywny AI, Arctic oferuje śmiały plan rozwoju modeli obiektywnie lepszych dla obciążeń produkcyjnych i środowisk przedsiębiorstw. Jego połączenie najnowocześniejszych badań, niezrównanej efektywności i niezachwianej otwartości ustanawia nowy standard w demokratyzacji transformacyjnego potencjału AI.

Jako że przedsiębiorstwa coraz bardziej wdrażają AI, Snowflake Arctic jest przełomem, który zmieni sposób, w jaki myślimy o AI w przedsiębiorstwach.

Praktyczne korzystanie z Arctic

Teraz, gdy omówiliśmy to, co sprawia, że Arctic jest naprawdę przełomowy, przejdźmy do tego, jak deweloperzy i analitycy danych mogą zacząć wykorzystywać ten potężny model.
Arctic jest dostępny bezpośrednio i gotowy do wdrożenia za pośrednictwem głównych hubów modeli, takich jak Hugging Face, i platform AI. Ale jego prawdziwa siła pojawia się, gdy jest dostosowywany i dostrajany do Twoich specjalistycznych przypadków użycia.

Arctic’s Apache 2.0 licencja zapewnia pełną swobodę integracji go z Twoimi aplikacjami, usługami lub niestandardowymi przepływami pracy AI. Przejdźmy przez kilka przykładów kodu, korzystając z biblioteki transformers, aby rozpocząć:
Podstawowa inferencja z Arctic

Dla szybkich przypadków generowania tekstu, możemy załadować Arctic i uruchomić podstawową inferencję bardzo łatwo:


from transformers import AutoTokenizer, AutoModelForCausalLM

# Załaduj tokenizator i model
tokenizer = AutoTokenizer.from_pretrained("Snowflake/snowflake-arctic-instruct")
model = AutoModelForCausalLM.from_pretrained("Snowflake/snowflake-arctic-instruct")

# Utwórz prosty input i wygeneruj tekst
input_text = "Oto podstawowe pytanie: Jaka jest stolica Francji?"
input_ids = tokenizer.encode(input_text, return_tensors="pt")

# Wygeneruj odpowiedź z Arctic
output = model.generate(input_ids, max_length=150, do_sample=True, top_k=50, top_p=0.95, num_return_sequences=1)
generated_text = tokenizer.decode(output[0], skip_special_tokens=True)

print(generated_text)

To powinno wygenerować coś w rodzaju:

“Stolicą Francji jest Paryż. Paryż jest największym miastem we Francji i centrum gospodarczym, politycznym i kulturalnym kraju. Jest domem dla słynnych zabytków, takich jak Wieża Eiffla, Luwr i katedra Notre-Dame.”

Jak widać, Arctic bezproblemowo rozumie pytanie i dostarcza szczegółową, uzasadnioną odpowiedź, wykorzystując swoje silne możliwości zrozumienia języka.

Dostosowywanie do specjalistycznych zadań

Chociaż already impresyjny, Arctic naprawdę błyszczy, gdy jest dostosowywany i dostrajany na Twoich własnych danych dla specjalistycznych zadań. Snowflake zapewnił obszerny przepis, obejmujący:

  • Tworzenie wysokiej jakości danych szkoleniowych dostosowanych do Twojego przypadku użycia
  • Wdrażanie niestandardowych, wieloetapowych programów szkoleniowych
  • Wykorzystywanie efektywnych podejść dostrajania LoRA, P-Tuning lub FactorizedFusion
  • Optymalizacje dla rozróżniania SQL, kodowania lub innych kluczowych umiejętności przedsiębiorstw

Oto przykład, jak dostrajać Arctic na własnych zestawach danych kodowania, korzystając z LoRA i przepisów Snowflake:


from transformers import AutoModelForCausalLM, AutoTokenizer
from peft import LoraConfig, get_peft_model, prepare_model_for_int8_training

# Załaduj podstawowy model Arctic
tokenizer = AutoTokenizer.from_pretrained("Snowflake/snowflake-arctic-instruct")
model = AutoModelForCausalLM.from_pretrained("Snowflake/snowflake-arctic-instruct", load_in_8bit=True)

# Zainicjuj konfigurację LoRA
lora_config = LoraConfig(
r=8,
lora_alpha=16,
target_modules=["query_key_value"],
lora_dropout=0.05,
bias="none",
task_type="CAUSAL_LM"
)

# Przygotuj model do dostrajania LoRA
model = prepare_model_for_int8_training(model)
model = get_peft_model(model, lora_config)

# Twoje zestawy danych kodowania
data = load_coding_datasets()

# Dostrój z przepisami Snowflake
train(model, data, ...)

Ten kod ilustruje, jak można łatwo załadować Arctic, zainicjować konfigurację LoRA dostosowaną do generowania kodu i dostrajać model na Twoich własnych zestawach danych kodowania, korzystając z wskazówek Snowflake.

Dostosowany i dostrajany, Arctic staje się potężnym, prywatnym modelem dostosowanym do dostarczania niezrównanej wydajności na Twoich kluczowych przepływach pracy przedsiębiorstwa i potrzebach interesariuszy.

Szybki cykl innowacji Arctic

Jednym z najbardziej imponujących aspektów Arctic jest niezwykła szybkość, z jaką zespół badawczy AI w Snowflake wymyślił, zbudował i wydał ten najnowocześniejszy model na świat. Od pomysłu do otwartego źródła, cały projekt Arctic zajął mniej niż trzy miesiące i wykorzystał tylko około jednej ósmej budżetu obliczeniowego typowego dla szkolenia podobnych dużych modeli językowych.

Ta zdolność do szybkiej iteracji, innowacji i produktyzacji najnowocześniejszych badań AI jest naprawdę godna uwagi. Pokazuje głębokie możliwości techniczne Snowflake i pozycjonuje firmę do ciągłego poszerzania granic w rozwoju nowych, zoptymalizowanych AI dla przedsiębiorstw.

Rodzina Arctic i osadzanie

Arctic to tylko początek ambicji Snowflake w przestrzeni LLM przedsiębiorstw. Firma już otworzyła Snowflake Arctic Embed, rodzinę wiodących modeli osadzania tekstu zoptymalizowanych pod kątem wydajności odzyskiwania w różnych profilach rozmiaru.

Jak pokazano poniżej, modele osadzania Arctic osiągają najwyższą dokładność odzyskiwania na szanowanym benchmarku MTEB (odzyskiwanie tekstu), przewyższając inne wiodące modele osadzania, w tym zamknięte oferty od głównych gigantów technologicznych.

[Wstawienie obrazu pokazującego wyniki benchmarku MTEB dla modeli osadzania Arctic]

Te modele osadzania uzupełniają LLM Arctic i umożliwiają przedsiębiorstwom budowanie potężnych rozwiązań do odpowiedzi na pytania i odzyskiwania, wzmocnionych generacją z zintegrowanego otwartego stosu.

Ale droga Snowflake sięga znacznie dalej niż tylko Arctic i osadzanie. Badacze AI firmy pracują nad rozszerzaniem rodziny Arctic o nowe modele dostosowane do zadań wielomodalnych, mowy, wideo i więcej możliwości na granicy – wszystkie zbudowane z tymi samymi zasadami specjalizacji, efektywności i otwartości.

Partnerstwo dla otwartego ekosystemu AI Snowflake rozumie, że zrealizowanie pełnego potencjału otwartego, przedsiębiorczego AI wymaga kultywowania bogatego ekosystemu partnerstw w całej społeczności AI. Wydanie Arctic już zainspirowało współpracę z głównymi platformami i dostawcami:

NVIDIA współpracował ściśle z Snowflake, aby zoptymalizować Arctic do wydajnego wdrożenia, korzystając z najnowocześniejszego stosu inferencji AI NVIDII, w tym TensorRT, Triton i więcej. Pozwala to przedsiębiorstwom na obsługę Arctic w skali, efektywnie kosztowo.

Hugging Face, wiodący otwarty hub modeli, przyjął Arctic do swoich bibliotek i repozytoriów modeli. Pozwala to na bezproblemową integrację Arctic z istniejącymi przepływami pracy i aplikacjami AI opartymi na Hugging Face.

Platformy takie jak Replicate, SageMaker i więcej szybko zaoferowały hostowane demo, API i płynne ścieżki integracji dla Arctic, przyspieszając jego przyjęcie.

Otwarte źródło kierowało rozwojem Arctic, a otwarte ekosystemy pozostają centralne dla jego ewolucji. Snowflake jest zaangażowany w wspieranie bogatej współpracy z badaczami, deweloperami, partnerami i przedsiębiorstwami na całym świecie, aby poszerzyć granice tego, co jest możliwe z otwartymi, specjalistycznymi modelami AI.

Spędziłem ostatnie pięć lat, zanurzając się w fascynującym świecie Machine Learning i Deep Learning. Moja pasja i ekspertyza doprowadziły mnie do udziału w ponad 50 różnych projektach inżynierii oprogramowania, ze szczególnym uwzględnieniem AI/ML. Moja nieustanna ciekawość również skierowała mnie w stronę Natural Language Processing, dziedziny, którą chcę bardziej zbadać.