Artificial Intelligence

Snowflake Arctic: najnowocześniejszy LLM dla korporacyjnej sztucznej inteligencji

Opublikowany 25 kwietnia 2024 r.

Aayush Mittal Mittala

Snowflake Arctic: najnowocześniejszy LLM dla korporacyjnej sztucznej inteligencji

Współczesne przedsiębiorstwa coraz częściej badają sposoby wykorzystania dużych modeli językowych (LLM) w celu zwiększenia produktywności i tworzenia inteligentnych aplikacji. Jednak wiele dostępnych opcji LLM to modele ogólne, które nie są dostosowane do wyspecjalizowanych potrzeb przedsiębiorstwa, takich jak analiza danych, kodowanie i automatyzacja zadań. Wchodzić Arktyka płatka śniegu – najnowocześniejsze rozwiązanie LLM celowo zaprojektowane i zoptymalizowane pod kątem podstawowych zastosowań w przedsiębiorstwie.

Opracowany przez zespół badawczy ds. sztucznej inteligencji w Snowflake, Arctic przesuwa granice możliwości dzięki efektywnemu szkoleniu, opłacalności i niezrównanemu poziomowi otwartości. Ten rewolucyjny model doskonale sprawdza się w kluczowych testach porównawczych dla przedsiębiorstw, wymagając jednocześnie znacznie mniejszej mocy obliczeniowej w porównaniu z istniejącymi modelami LLM. Przyjrzyjmy się bliżej temu, co sprawia, że Arctic jest przełomem w dziedzinie sztucznej inteligencji w przedsiębiorstwach.

Nowa definicja inteligencji korporacyjnej W swojej istocie Arctic skupia się laserowo na zapewnianiu wyjątkowej wydajności w zakresie wskaźników, które naprawdę mają znaczenie dla przedsiębiorstw – kodowania, wykonywania zapytań SQL, wykonywania złożonych instrukcji i tworzenia ugruntowanych, opartych na faktach wyników. Snowflake połączył te krytyczne możliwości w powieść „inteligencja przedsiębiorstw” metryka.

Wyniki mówią same za siebie. Arctic osiąga lub przewyższa modele takie jak LLAMA 7B i LLAMA 70B w testach porównawczych inteligencji korporacyjnej, zużywając przy tym mniej niż połowę budżetu obliczeniowego na szkolenia. Co ciekawe, pomimo wykorzystania 17 razy mniej zasobów obliczeniowych niż LLAMA 70B, Arctic osiąga parzystość w specjalistycznych testach, takich jak kodowanie (HumanEval+, MBPP+), generowanie SQL (Spider) i wykonywanie instrukcji (IFEval).

Ale możliwości Arctic wykraczają poza samo osiąganie wyników w testach porównawczych przedsiębiorstw. Utrzymuje on wysoką wydajność w zakresie rozumienia języka ogólnego, rozumowania i zdolności matematycznych w porównaniu z modelami trenowanymi z wykładniczo wyższymi budżetami obliczeniowymi, takimi jak DBRX. Ta holistyczna funkcjonalność sprawia, że Arctic jest bezkonkurencyjnym wyborem, jeśli chodzi o zaspokojenie zróżnicowanych potrzeb przedsiębiorstw w zakresie sztucznej inteligencji.

Innowacja

Transformator hybrydowy Dense-MoE Jak więc zespół Snowflake zbudował tak niesamowicie wydajny, a jednocześnie wydajny LLM? Odpowiedź leży w najnowocześniejszej architekturze transformatora hybrydowego Dense Mixture-of-Experts (MoE) firmy Arctic.

Tradycyjne modele gęstych transformatorów stają się coraz bardziej kosztowne w uczeniu wraz ze wzrostem ich rozmiarów, a wymagania obliczeniowe rosną liniowo. Projekt Ministerstwa Środowiska pomaga obejść ten problem, wykorzystując wiele równoległych sieci ze sprzężeniem zwrotnym (eksperci) i aktywując tylko podzbiór dla każdego tokena wejściowego.

Jednak samo zastosowanie architektury MoE nie wystarczy – Arctic w pomysłowy sposób łączy zalety komponentów gęstych i MoE. Łączy on 10-miliardowy koder transformatora gęstego z 128-warstwową warstwą perceptronu wielowarstwowego (MLP) MoE o eksperckim resztkowym MoE. Ten hybrydowy model gęstego MoE obejmuje łącznie 480 miliardów parametrów, ale tylko 17 miliardów jest aktywnych w dowolnym momencie dzięki bramkowaniu top-2.

Konsekwencje są głębokie – Arctic osiąga niespotykaną jakość i pojemność modelu, zachowując jednocześnie niezwykłą wydajność obliczeniową podczas uczenia i wnioskowania. Na przykład Arctic ma podczas wnioskowania o 50% mniej aktywnych parametrów niż modele takie jak DBRX.

Ale architektura modelowa to tylko część historii. Doskonałość Arctic to zwieńczenie kilku pionierskich technik i spostrzeżeń opracowanych przez zespół badawczy Snowflake:

Program nauczania danych zorientowany na przedsiębiorstwa. Poprzez szeroko zakrojone eksperymenty zespół odkrył, że ogólne umiejętności, takie jak rozumowanie oparte na zdrowym rozsądku, należy nabywać na wczesnym etapie, natomiast bardziej złożone specjalizacje, takie jak kodowanie i SQL, najlepiej nabywać na późniejszym etapie procesu szkolenia. Program nauczania danych firmy Arctic opiera się na trzyetapowym podejściu, naśladującym postępy w uczeniu się człowieka.

Pierwsze teratokena koncentruje się na budowaniu szerokiej, ogólnej bazy. Kolejne 1.5 teratokena koncentruje się na rozwijaniu umiejętności przedsiębiorczych poprzez dane dostosowane do SQL, zadania związane z kodowaniem i nie tylko. Ostatnie teratokena dodatkowo udoskonalają specjalizacje Arctic za pomocą udoskonalonych zestawów danych.

Optymalne wybory architektoniczne Chociaż MoE obiecują lepszą jakość obliczeń, wybór odpowiednich konfiguracji jest kluczowy, ale słabo poznany. Dzięki szczegółowym badaniom firma Snowflake wybrała architekturę zatrudniającą 128 ekspertów z 2 najlepszymi bramkami dla każdej warstwy po ocenie kompromisów między jakością a wydajnością.

Zwiększenie liczby ekspertów zapewnia więcej kombinacji, zwiększając wydajność modelu. Jednak podnosi to również koszty komunikacji, więc Snowflake wylądował na 128 starannie zaprojektowanych „skondensowanych” ekspertach aktywowanych poprzez bramkowanie 2 najlepszych, co stanowiło optymalną równowagę.

Współprojektowanie systemu Jednak nawet optymalna architektura modelu może zostać zakłócona przez wąskie gardła systemu. Dlatego zespół Snowflake również tutaj wprowadził innowacje – współprojektując architekturę modelu ręka w rękę z podstawowymi systemami uczenia i wnioskowania.

Aby zapewnić efektywne szkolenie, komponenty „dense” i „MoE” zostały skonstruowane tak, aby umożliwić nakładanie się komunikacji i obliczeń, ukrywając znaczne obciążenie komunikacyjne. Po stronie wnioskowania, zespół wykorzystał innowacje firmy NVIDIA, aby umożliwić wysoce wydajne wdrożenie, pomimo skali Arctic.

Techniki takie jak kwantyzacja FP8 pozwalają na dopasowanie całego modelu do pojedynczego węzła GPU, co umożliwia interaktywne wnioskowanie. Większe partie danych wykorzystują możliwości paralelizmu Arctic na wielu węzłach, zachowując jednocześnie imponującą wydajność obliczeniową dzięki kompaktowym, aktywnym parametrom 17 mld.

Dzięki licencji Apache 2.0 wagi i kod Arctic są dostępne bez ograniczeń do dowolnego użytku osobistego, badawczego lub komercyjnego. Snowflake poszedł jednak o wiele dalej, udostępniając na zasadzie open source kompletne receptury danych, implementacje modeli, wskazówki i dogłębne analizy stanowiące podstawę Arctic.

"Arktyczna książka kucharska” to obszerna baza wiedzy obejmująca każdy aspekt budowania i optymalizacji wielkoskalowego modelu MoE, takiego jak Arctic. Wykorzystuje kluczowe wnioski z zakresu pozyskiwania danych, projektowania architektury modelu, wspólnego projektowania systemów, zoptymalizowanych schematów uczenia/wnioskowania i nie tylko.

Od identyfikacji optymalnych programów nauczania danych po projektowanie MoE przy jednoczesnej optymalizacji kompilatorów, programów planujących i sprzętu – ten obszerny zasób wiedzy demokratyzuje umiejętności, które wcześniej były ograniczone do elitarnych laboratoriów AI. Arctic Cookbook przyspiesza naukę i umożliwia przedsiębiorstwom, badaczom i programistom na całym świecie tworzenie własnych, opłacalnych, dostosowanych do potrzeb LLM dla praktycznie każdego przypadku użycia.

Pierwsze kroki z Arktyką

Firmom chcącym wykorzystać Arktykę Snowflake oferuje wiele możliwości szybkiego rozpoczęcia pracy:

Wnioskowanie bezserwerowe: Klienci Snowflake mogą uzyskać bezpłatny dostęp do modelu Arctic w Snowflake Cortex, w pełni zarządzanej platformie AI firmy. Ponadto Arctic jest dostępny we wszystkich głównych katalogach modeli, takich jak AWS, Microsoft Azure, NVIDIA i innych.

Zacznij od zera: wagi i implementacje modelu open source umożliwiają programistom bezpośrednią integrację Arctic z ich aplikacjami i usługami. Repozytorium Arctic zawiera próbki kodu, samouczki dotyczące wdrażania, przepisy na dostrajanie i nie tylko.

Twórz niestandardowe modele: dzięki wyczerpującym przewodnikom Arctic Cookbook deweloperzy mogą od podstaw tworzyć własne, niestandardowe modele MoE, zoptymalizowane pod kątem dowolnego specjalistycznego przypadku użycia, korzystając z wiedzy i doświadczeń zdobytych podczas prac rozwojowych firmy Arctic.

Nowa era otwartej sztucznej inteligencji dla przedsiębiorstw Arctic to coś więcej niż kolejny potężny model językowy – zwiastuje nową erę otwartych, opłacalnych i wyspecjalizowanych możliwości sztucznej inteligencji stworzonych specjalnie dla przedsiębiorstw.

Od rewolucjonizowania analityki danych i produktywności kodowania, po automatyzację zadań i inteligentniejsze aplikacje – innowacyjne podejście Arctic do biznesu sprawia, że jest to bezkonkurencyjny wybór w porównaniu z generycznymi programami LLM. Udostępniając nie tylko model, ale także cały proces badawczo-rozwojowy, Snowflake promuje kulturę współpracy, która podniesie poziom całego ekosystemu AI.

W miarę jak przedsiębiorstwa coraz częściej wdrażają generatywną sztuczną inteligencję, Arctic oferuje śmiały projekt tworzenia modeli obiektywnie lepszych dla obciążeń produkcyjnych i środowisk korporacyjnych. Połączenie najnowocześniejszych badań, niezrównanej wydajności i niezachwianej, otwartej filozofii wyznacza nowy standard w demokratyzacji transformacyjnego potencjału sztucznej inteligencji.

Poniżej znajduje się sekcja z przykładami kodu pokazującymi, jak używać modelu Snowflake Arctic:

Praktyczna znajomość Arktyki

Teraz, gdy omówiliśmy, co czyni Arctic prawdziwie przełomowym modelem, przyjrzyjmy się bliżej, w jaki sposób programiści i naukowcy zajmujący się danymi mogą zacząć wdrażać ten potężny model.
Od razu po wyjęciu z pudełka Arctic jest dostępny jako wstępnie przeszkolony i gotowy do wdrożenia za pośrednictwem głównych centrów modeli, takich jak Hugging Face i partnerskie platformy AI. Jednak jego prawdziwa moc ujawnia się podczas dostosowywania i dostrajania go do konkretnych zastosowań.

Licencja Apache 2.0 firmy Arctic zapewnia pełną swobodę integracji z aplikacjami, usługami lub niestandardowymi procesami AI. Na początek przeanalizujmy kilka przykładów kodu z wykorzystaniem biblioteki Transformers:
Podstawowe wnioski z Arktyki

W przypadkach użycia szybkiego generowania tekstu możemy bardzo łatwo załadować Arctic i przeprowadzić podstawowe wnioskowanie:

from transformers import AutoTokenizer, AutoModelForCausalLM

# Load the tokenizer and model
tokenizer = AutoTokenizer.from_pretrained("Snowflake/snowflake-arctic-instruct")
model = AutoModelForCausalLM.from_pretrained("Snowflake/snowflake-arctic-instruct")

# Create a simple input and generate text
input_text = "Here is a basic question: What is the capital of France?"
input_ids = tokenizer.encode(input_text, return_tensors="pt")

# Generate response with Arctic
output = model.generate(input_ids, max_length=150, do_sample=True, top_k=50, top_p=0.95, num_return_sequences=1)
generated_text = tokenizer.decode(output[0], skip_special_tokens=True)

print(generated_text)

Powinno to wypisać coś takiego:

„Stolicą Francji jest Paryż. Paryż jest największym miastem we Francji oraz centrum gospodarczym, politycznym i kulturalnym kraju. Znajdują się tu słynne zabytki, takie jak Wieża Eiffla, Luwr i katedra Notre-Dame”.

Jak widać, Arctic bezproblemowo rozumie zapytanie i zapewnia szczegółową, uzasadnioną odpowiedź, wykorzystując swoje solidne możliwości rozumienia języka.

Dostosowanie do zadań specjalistycznych

Choć od razu po wyjęciu z pudełka Arctic robi wrażenie, naprawdę błyszczy, gdy zostanie dostosowany i dostrojony na podstawie Twoich zastrzeżonych danych do specjalistycznych zadań. Snowflake udostępnił obszerne przepisy obejmujące:

Opieka nad wysokiej jakości danymi szkoleniowymi dostosowanymi do Twojego przypadku użycia
Realizacja dostosowanych do indywidualnych potrzeb, wieloetapowych programów szkoleniowych
Wykorzystanie wydajnych metod dostrajania LoRA, P-Tuning lubFactorizedFusion
Optymalizacje pod kątem wymagających umiejętności SQL, kodowania i innych kluczowych umiejętności przedsiębiorstwa

Oto przykład, jak dostroić Arctic do własnych zestawów danych kodowych, korzystając z przepisów LoRA i Snowflake:

from transformers import AutoModelForCausalLM, AutoTokenizer
from peft import LoraConfig, get_peft_model, prepare_model_for_int8_training

# Load base Arctic model
tokenizer = AutoTokenizer.from_pretrained("Snowflake/snowflake-arctic-instruct")
model = AutoModelForCausalLM.from_pretrained("Snowflake/snowflake-arctic-instruct", load_in_8bit=True)

# Initialize LoRA configs
lora_config = LoraConfig(
r=8,
lora_alpha=16,
target_modules=["query_key_value"],
lora_dropout=0.05,
bias="none",
task_type="CAUSAL_LM"
)

# Prepare model for LoRA finetuning
model = prepare_model_for_int8_training(model)
model = get_peft_model(model, lora_config)

# Your coding datasets
data = load_coding_datasets()

# Fine-tune with Snowflake's recipes
train(model, data, ...)

Ten kod ilustruje, jak można bez wysiłku załadować Arctic, zainicjować konfigurację LoRA dostosowaną do generowania kodu, a następnie dostroić model w zastrzeżonych zestawach danych kodowania, korzystając ze wskazówek Snowflake.

Dostosowany i dopracowany Arctic staje się prywatną potęgą dostosowaną do zapewniania niezrównanej wydajności w zakresie podstawowych przepływów pracy w przedsiębiorstwie i potrzeb interesariuszy.

Szybki cykl innowacji Arktyki

Jednym z najbardziej imponujących aspektów projektu Arctic jest zawrotne tempo, w jakim zespół badawczy ds. sztucznej inteligencji Snowflake stworzył, rozwinął i udostępnił światu ten nowatorski model. Od pomysłu do udostępnienia kodu źródłowego, cały projekt Arctic zajął niecałe trzy miesiące i wykorzystał zaledwie około jednej ósmej budżetu obliczeniowego typowego dla trenowania podobnych, dużych modeli językowych.

Ta zdolność do szybkiej iteracji, innowacji i komercjalizacji najnowocześniejszych badań nad sztuczną inteligencją jest naprawdę niezwykła. Świadczy ona o głębokim potencjale technicznym Snowflake i pozwala firmie na ciągłe poszerzanie granic w rozwijaniu nowatorskich, zoptymalizowanych pod kątem przedsiębiorstw możliwości w zakresie sztucznej inteligencji.

Rodzina Arktyczna i osady

Arctic to dopiero początek ambicji Snowflake w obszarze korporacyjnych studiów LLM. Firma udostępniła już na zasadzie open source rodzinę wiodących w branży modeli osadzania tekstu Snowflake Arctic Embed, zoptymalizowanych pod kątem wydajności wyszukiwania w profilach o różnych rozmiarach.

Jak pokazano poniżej, modele Arctic Embed osiągają najnowocześniejszą dokładność wyszukiwania w szanowanym teście porównawczym MTEB (wyszukiwanie tekstu), przewyższając inne wiodące modele osadzania, w tym zamknięte oferty największych gigantów technologicznych.

[Wstaw obraz przedstawiający wyniki testu porównawczego pobierania MTEB dla modeli Arctic Embed]

Te modele osadzania uzupełniają Arctic LLM i umożliwiają przedsiębiorstwom tworzenie wydajnych rozwiązań generujących odpowiedzi na pytania i wyszukiwanie ze zintegrowanego stosu open source.

Ale plan działania Snowflake wykracza daleko poza Arctic i systemy osadzenia. Badacze sztucznej inteligencji firmy intensywnie pracują nad rozszerzeniem rodziny Arctic o nowe modele dostosowane do zadań multimodalnych, mowy, wideo i innych zaawansowanych funkcji – wszystkie zbudowane w oparciu o te same zasady specjalizacji, wydajności i otwartości.

Partnerstwo na rzecz otwartego ekosystemu sztucznej inteligencji Snowflake rozumie, że wykorzystanie pełnego potencjału otwartej sztucznej inteligencji klasy korporacyjnej wymaga kultywowania bogatego ekosystemu partnerstw w całej społeczności sztucznej inteligencji. Wersja Arctic pobudziła już współpracę z głównymi platformami i dostawcami:

NVIDIA nawiązała ścisłą współpracę ze Snowflake, aby zoptymalizować Arctic pod kątem efektywnego wdrożenia, wykorzystując najnowocześniejszy stos wnioskowania AI firmy NVIDIA, w tym TensorRT, Triton i inne. Dzięki temu przedsiębiorstwa mogą obsługiwać Arctic na dużą skalę i w sposób efektywny kosztowo.

Hugging Face, wiodące centrum modeli open source, z radością powitało firmę Arctic w swoich bibliotekach i repozytoriach modeli. Umożliwia to bezproblemową integrację Arctic z istniejącymi przepływami pracy i aplikacjami AI opartymi na Hugging Face.

Platformy takie jak Replicate, SageMaker i inne szybko zaczęły oferować hostowane wersje demonstracyjne, interfejsy API i płynne ścieżki integracji dla Arctic, przyspieszając jej przyjęcie.

Open source napędzało rozwój Arctic, a otwarte ekosystemy pozostają kluczowe dla jego ewolucji. Snowflake angażuje się w rozwijanie bogatej współpracy z badaczami, programistami, partnerami i przedsiębiorstwami na całym świecie, aby poszerzać granice możliwości dzięki otwartym, wyspecjalizowanym modelom sztucznej inteligencji.

Powiązane tematy:Badania AI Arctic Przedsiębiorstwa LLM Mieszanka Ekspertów Snowflake transformator

W przyszłym

Mini-Gemini: wydobywanie potencjału multimodalnych modeli języka wizyjnego

Nie przegap

AIOS: system operacyjny dla agentów LLM

Aayush Mittal

Ostatnie pięć lat spędziłem zanurzając się w fascynującym świecie uczenia maszynowego i głębokiego uczenia się. Moja pasja i wiedza sprawiły, że uczestniczyłem w ponad 50 różnorodnych projektach z zakresu inżynierii oprogramowania, ze szczególnym uwzględnieniem AI/ML. Moja ciągła ciekawość przyciągnęła mnie również w stronę przetwarzania języka naturalnego – dziedziny, którą chcę dalej zgłębiać.