Artificial Intelligence

Snowflake Arctic: najnowocześniejszy LLM dla korporacyjnej sztucznej inteligencji

Opublikowany

2 tydzień temu

25 kwietnia 2024 r.

Snowflake Arctic: najnowocześniejszy LLM dla korporacyjnej sztucznej inteligencji

Współczesne przedsiębiorstwa coraz częściej badają sposoby wykorzystania dużych modeli językowych (LLM) w celu zwiększenia produktywności i tworzenia inteligentnych aplikacji. Jednak wiele dostępnych opcji LLM to modele ogólne, które nie są dostosowane do wyspecjalizowanych potrzeb przedsiębiorstwa, takich jak analiza danych, kodowanie i automatyzacja zadań. Wchodzić Arktyka płatka śniegu – najnowocześniejsze rozwiązanie LLM celowo zaprojektowane i zoptymalizowane pod kątem podstawowych zastosowań w przedsiębiorstwie.

Opracowany przez zespół badawczy AI w Snowflake, Arctic przesuwa granice tego, co jest możliwe dzięki wydajnemu szkoleniu, opłacalności i niezrównanemu poziomowi otwartości. Ten rewolucyjny model wyróżnia się w kluczowych testach korporacyjnych, wymagając jednocześnie znacznie mniejszej mocy obliczeniowej w porównaniu z istniejącymi LLM. Przyjrzyjmy się, co sprawia, że Arctic zmienia reguły gry w zakresie sztucznej inteligencji dla przedsiębiorstw.

Nowa definicja inteligencji korporacyjnej W swojej istocie Arctic skupia się laserowo na zapewnianiu wyjątkowej wydajności w zakresie wskaźników, które naprawdę mają znaczenie dla przedsiębiorstw – kodowania, wykonywania zapytań SQL, wykonywania złożonych instrukcji i tworzenia ugruntowanych, opartych na faktach wyników. Snowflake połączył te krytyczne możliwości w powieść „inteligencja przedsiębiorstw” metryka.

Wyniki mówią same za siebie. Arctic osiąga lub przewyższa modele takie jak LLAMA 7B i LLAMA 70B w testach porównawczych inteligencji korporacyjnej, zużywając przy tym mniej niż połowę budżetu obliczeniowego na szkolenia. Co ciekawe, pomimo wykorzystania 17 razy mniej zasobów obliczeniowych niż LLAMA 70B, Arctic osiąga parzystość w specjalistycznych testach, takich jak kodowanie (HumanEval+, MBPP+), generowanie SQL (Spider) i wykonywanie instrukcji (IFEval).

Jednak możliwości Arctic wykraczają poza samo osiąganie najlepszych wyników w testach korporacyjnych. Utrzymuje wysoką wydajność w zakresie ogólnego rozumienia języka, rozumowania i zdolności matematycznych w porównaniu z modelami szkolonymi przy wykładniczo wyższych budżetach obliczeniowych, takich jak DBRX. Ta całościowa zdolność sprawia, że Arctic jest bezkonkurencyjnym wyborem, jeśli chodzi o zaspokajanie różnorodnych potrzeb przedsiębiorstwa w zakresie sztucznej inteligencji.

Innowacja

Transformator hybrydowy Dense-MoE Jak więc zespół Snowflake zbudował tak niesamowicie wydajny, a jednocześnie wydajny LLM? Odpowiedź leży w najnowocześniejszej architekturze transformatora hybrydowego Dense Mixture-of-Experts (MoE) firmy Arctic.

Tradycyjne modele gęstych transformatorów stają się coraz bardziej kosztowne w uczeniu wraz ze wzrostem ich rozmiarów, a wymagania obliczeniowe rosną liniowo. Projekt Ministerstwa Środowiska pomaga obejść ten problem, wykorzystując wiele równoległych sieci ze sprzężeniem zwrotnym (eksperci) i aktywując tylko podzbiór dla każdego tokena wejściowego.

Jednak samo użycie architektury MoE nie wystarczy – Arctic w genialny sposób łączy zalety komponentów gęstych i MoE. Łączy 10 miliardów parametrów gęsty koder transformatorowy ze 128 ekspertami resztkowej wielowarstwowej warstwy perceptronu (MLP) MoE. Ten hybrydowy model gęstego MoE obejmuje łącznie 480 miliardów parametrów, ale tylko 17 miliardów jest aktywnych w danym momencie przy użyciu bramkowania top-2.

Konsekwencje są głębokie – Arctic osiąga niespotykaną jakość i pojemność modelu, zachowując jednocześnie niezwykłą wydajność obliczeniową podczas uczenia i wnioskowania. Na przykład Arctic ma podczas wnioskowania o 50% mniej aktywnych parametrów niż modele takie jak DBRX.

Ale architektura modelowa to tylko jedna część historii. Doskonałość Arktyki jest kulminacją kilku pionierskich technik i spostrzeżeń opracowanych przez zespół badawczy Snowflake:

Program szkolenia ukierunkowany na dane przedsiębiorstwa Dzięki szeroko zakrojonym eksperymentom zespół odkrył, że umiejętności ogólnych, takich jak zdroworozsądkowe rozumowanie, należy uczyć się na wczesnym etapie, podczas gdy bardziej złożone specjalizacje, takie jak kodowanie i SQL, najlepiej zdobywać w dalszej części procesu szkoleniowego. Program nauczania danych Arctic opiera się na trzyetapowym podejściu naśladującym postępy w uczeniu się człowieka.

Pierwsze teratokeny skupiają się na budowaniu szerokiej bazy ogólnej. Kolejne 1.5 teratokenu koncentruje się na rozwijaniu umiejętności korporacyjnych poprzez dane dostosowane do SQL, zadania związane z kodowaniem i nie tylko. Ostateczne teratokeny w dalszym stopniu udoskonalają specjalizacje Arktyki przy użyciu udoskonalonych zbiorów danych.

Optymalne wybory architektoniczne Chociaż MoE obiecują lepszą jakość obliczeń, wybór odpowiednich konfiguracji jest kluczowy, ale słabo poznany. Dzięki szczegółowym badaniom firma Snowflake wybrała architekturę zatrudniającą 128 ekspertów z 2 najlepszymi bramkami dla każdej warstwy po ocenie kompromisów między jakością a wydajnością.

Zwiększenie liczby ekspertów zapewnia więcej kombinacji, zwiększając wydajność modelu. Jednak podnosi to również koszty komunikacji, więc Snowflake wylądował na 128 starannie zaprojektowanych „skondensowanych” ekspertach aktywowanych poprzez bramkowanie 2 najlepszych, co stanowiło optymalną równowagę.

Współprojektowanie systemu Jednak nawet optymalna architektura modelu może zostać zakłócona przez wąskie gardła systemu. Dlatego zespół Snowflake również tutaj wprowadził innowacje – współprojektując architekturę modelu ręka w rękę z podstawowymi systemami uczenia i wnioskowania.

W celu zapewnienia wydajnego szkolenia komponenty gęste i MoE zostały skonstruowane tak, aby umożliwić nakładanie się komunikacji i obliczeń, ukrywając znaczne koszty ogólne komunikacji. Podsumowując, zespół wykorzystał innowacje firmy NVIDIA, aby umożliwić wysoce wydajne wdrożenie pomimo skali Arktyki.

Techniki takie jak kwantyzacja FP8 umożliwiają dopasowanie pełnego modelu do pojedynczego węzła GPU w celu interaktywnego wnioskowania. Większe partie wykorzystują możliwości równoległości Arctic w wielu węzłach, zachowując jednocześnie imponującą wydajność obliczeniową dzięki kompaktowym aktywnym parametrom 17B.

Dzięki licencji Apache 2.0 wagi i kod Arctic są dostępne bez ograniczeń do użytku osobistego, badawczego lub komercyjnego. Ale Snowflake poszedł znacznie dalej, udostępniając na zasadach open source kompletne receptury danych, implementacje modeli, wskazówki i szczegółowe spostrzeżenia badawcze wykorzystywane w Arktyce.

"Arktyczna książka kucharska” to obszerna baza wiedzy obejmująca każdy aspekt budowania i optymalizacji wielkoskalowego modelu MoE, takiego jak Arctic. Wykorzystuje kluczowe wnioski z zakresu pozyskiwania danych, projektowania architektury modelu, wspólnego projektowania systemów, zoptymalizowanych schematów uczenia/wnioskowania i nie tylko.

Od identyfikacji optymalnych programów nauczania danych po projektowanie MoE przy jednoczesnej optymalizacji kompilatorów, programów planujących i sprzętu – ten obszerny zasób wiedzy demokratyzuje umiejętności, które wcześniej były ograniczone do elitarnych laboratoriów AI. Arctic Cookbook przyspiesza naukę i umożliwia przedsiębiorstwom, badaczom i programistom na całym świecie tworzenie własnych, opłacalnych, dostosowanych do potrzeb LLM dla praktycznie każdego przypadku użycia.

Pierwsze kroki z Arktyką

Firmom chcącym wykorzystać Arktykę Snowflake oferuje wiele możliwości szybkiego rozpoczęcia pracy:

Wnioskowanie bezserwerowe: klienci Snowflake mogą uzyskać bezpłatny dostęp do modelu Arctic na Snowflake Cortex, w pełni zarządzanej platformie AI firmy. Poza tym Arctic jest dostępny we wszystkich głównych katalogach modeli, takich jak AWS, Microsoft Azure, NVIDIA i nie tylko.

Zacznij od zera: wagi i implementacje modelu open source umożliwiają programistom bezpośrednią integrację Arctic z ich aplikacjami i usługami. Repozytorium Arctic zawiera próbki kodu, samouczki dotyczące wdrażania, przepisy na dostrajanie i nie tylko.

Twórz niestandardowe modele: Dzięki wyczerpującym przewodnikom Arctic Cookbook programiści mogą od podstaw budować własne, niestandardowe modele MoE, zoptymalizowane pod kątem dowolnego specjalistycznego przypadku użycia, korzystając z wniosków płynących z rozwoju Arctic.

Nowa era otwartej sztucznej inteligencji dla przedsiębiorstw Arctic to coś więcej niż kolejny potężny model językowy – zwiastuje nową erę otwartych, opłacalnych i wyspecjalizowanych możliwości sztucznej inteligencji stworzonych specjalnie dla przedsiębiorstw.

Od rewolucjonizacji analizy danych i produktywności kodowania po automatyzację zadań i inteligentniejsze aplikacje, DNA firmy Arctic przeznaczone dla przedsiębiorstw sprawia, że jest to bezkonkurencyjny wybór w porównaniu z ogólnymi programami LLM. Dzięki otwartemu pozyskiwaniu nie tylko modelu, ale całego stojącego za nim procesu badawczo-rozwojowego, Snowflake promuje kulturę współpracy, która podniesie poziom całego ekosystemu sztucznej inteligencji.

W miarę jak przedsiębiorstwa w coraz większym stopniu korzystają z generatywnej sztucznej inteligencji, Arctic oferuje śmiały plan opracowania modeli obiektywnie lepszych pod kątem obciążeń produkcyjnych i środowisk korporacyjnych. Połączenie najnowocześniejszych badań, niezrównanej wydajności i niezłomnego otwartego etosu wyznacza nowy punkt odniesienia w demokratyzacji potencjału transformacyjnego sztucznej inteligencji.

Oto sekcja z przykładami kodu pokazującymi, jak używać modelu Snowflake Arctic:

Praktyczna znajomość Arktyki

Teraz, gdy omówiliśmy już, co sprawia, że Arctic jest naprawdę przełomowy, przyjrzyjmy się, w jaki sposób programiści i badacze danych mogą zacząć wdrażać ten potężny model.
Od razu po wyjęciu z pudełka Arctic jest dostępny jako wstępnie przeszkolony i gotowy do wdrożenia za pośrednictwem głównych centrów modeli, takich jak Hugging Face i partnerskie platformy AI. Jednak jego prawdziwa moc ujawnia się podczas dostosowywania i dostrajania go do konkretnych zastosowań.

Licencja Arctic Apache 2.0 zapewnia pełną swobodę integracji z aplikacjami, usługami lub niestandardowymi przepływami pracy AI. Na początek przeanalizujmy kilka przykładów kodu korzystających z biblioteki transformatorów:
Podstawowe wnioski z Arktyki

W przypadkach użycia szybkiego generowania tekstu możemy bardzo łatwo załadować Arctic i przeprowadzić podstawowe wnioskowanie:

from transformers import AutoTokenizer, AutoModelForCausalLM
# Load the tokenizer and model
tokenizer = AutoTokenizer.from_pretrained("Snowflake/snowflake-arctic-instruct")
model = AutoModelForCausalLM.from_pretrained("Snowflake/snowflake-arctic-instruct")
# Create a simple input and generate text
input_text = "Here is a basic question: What is the capital of France?"
input_ids = tokenizer.encode(input_text, return_tensors="pt")
# Generate response with Arctic
output = model.generate(input_ids, max_length=150, do_sample=True, top_k=50, top_p=0.95, num_return_sequences=1)
generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
print(generated_text)

Powinno to wypisać coś takiego:

„Stolicą Francji jest Paryż. Paryż to największe miasto we Francji i centrum gospodarcze, polityczne i kulturalne kraju. Znajdują się tu słynne zabytki, takie jak Wieża Eiffla, Luwr i katedra Notre-Dame.

Jak widać, Arctic bezproblemowo rozumie zapytanie i zapewnia szczegółową, uzasadnioną odpowiedź, wykorzystując swoje solidne możliwości rozumienia języka.

Dostosowanie do zadań specjalistycznych

Choć od razu po wyjęciu z pudełka Arctic robi wrażenie, naprawdę błyszczy, gdy zostanie dostosowany i dostrojony na podstawie Twoich zastrzeżonych danych do specjalistycznych zadań. Snowflake udostępnił obszerne przepisy obejmujące:

Opieka nad wysokiej jakości danymi szkoleniowymi dostosowanymi do Twojego przypadku użycia
Realizacja dostosowanych do indywidualnych potrzeb, wieloetapowych programów szkoleniowych
Wykorzystanie wydajnych metod dostrajania LoRA, P-Tuning lubFactorizedFusion
Optymalizacje pod kątem wymagających umiejętności SQL, kodowania i innych kluczowych umiejętności przedsiębiorstwa

Oto przykład, jak dostroić Arctic na własnych zestawach danych kodowania, korzystając z przepisów LoRA i Snowflake:

from transformers import AutoModelForCausalLM, AutoTokenizer
from peft import LoraConfig, get_peft_model, prepare_model_for_int8_training
# Load base Arctic model
tokenizer = AutoTokenizer.from_pretrained("Snowflake/snowflake-arctic-instruct")
model = AutoModelForCausalLM.from_pretrained("Snowflake/snowflake-arctic-instruct", load_in_8bit=True)
# Initialize LoRA configs
lora_config = LoraConfig(
r=8,
lora_alpha=16,
target_modules=["query_key_value"],
lora_dropout=0.05,
bias="none",
task_type="CAUSAL_LM"
)
# Prepare model for LoRA finetuning
model = prepare_model_for_int8_training(model)
model = get_peft_model(model, lora_config)
# Your coding datasets
data = load_coding_datasets()
# Fine-tune with Snowflake's recipes
train(model, data, ...)

Ten kod ilustruje, jak można bez wysiłku załadować Arctic, zainicjować konfigurację LoRA dostosowaną do generowania kodu, a następnie dostroić model na własnych zestawach danych kodowania, korzystając ze wskazówek Snowflake.

Dostosowany i dopracowany Arctic staje się prywatną potęgą dostosowaną do zapewniania niezrównanej wydajności w zakresie podstawowych przepływów pracy w przedsiębiorstwie i potrzeb interesariuszy.

Cykl szybkich innowacji w Arktyce

Jednym z najbardziej imponujących aspektów Arktyki jest zawrotne tempo, w jakim zespół badawczy Snowflake zajmujący się sztuczną inteligencją opracował, opracował i udostępnił światu ten najnowocześniejszy model. Od pomysłu do udostępnienia oprogramowania typu open source cały projekt Arctic trwał niecałe trzy miesiące i wykorzystał jedynie około jednej ósmej budżetu obliczeniowego typowego dla szkolenia podobnych dużych modeli językowych.

Ta zdolność do szybkiego iterowania, wprowadzania innowacji i tworzenia najnowocześniejszych badań nad sztuczną inteligencją jest naprawdę niezwykła. Pokazuje głębokie możliwości techniczne Snowflake i pozwala firmie na ciągłe przesuwanie granic w opracowywaniu nowatorskich, zoptymalizowanych pod kątem przedsiębiorstw możliwości sztucznej inteligencji.

Rodzina Arktyczna i osady

Arktyka to dopiero początek ambicji Snowflake w przestrzeni korporacyjnej LLM. Firma udostępniła już na zasadach open source rodzinę wiodących w branży modeli osadzania tekstu Snowflake Arctic Embed, zoptymalizowanych pod kątem wydajności wyszukiwania w profilach o wielu rozmiarach.

Jak pokazano poniżej, modele Arctic Embed osiągają najnowocześniejszą dokładność wyszukiwania w szanowanym teście porównawczym MTEB (wyszukiwanie tekstu), przewyższając inne wiodące modele osadzania, w tym zamknięte oferty największych gigantów technologicznych.

[Wstaw obraz przedstawiający wyniki testu porównawczego pobierania MTEB dla modeli Arctic Embed]

Te modele osadzania uzupełniają Arctic LLM i umożliwiają przedsiębiorstwom tworzenie wydajnych rozwiązań generujących odpowiedzi na pytania i wyszukiwanie ze zintegrowanego stosu open source.

Ale plan działania Snowflake wykracza daleko poza Arktykę i osadzania. Badacze sztucznej inteligencji firmy ciężko pracują nad rozszerzeniem rodziny Arctic o nowe modele dostosowane do zadań multimodalnych, mowy, wideo i bardziej pionierskich możliwości – wszystkie zbudowane przy użyciu tych samych zasad specjalizacji, wydajności i otwartości.

Partnerstwo na rzecz otwartego ekosystemu sztucznej inteligencji Snowflake rozumie, że wykorzystanie pełnego potencjału otwartej sztucznej inteligencji klasy korporacyjnej wymaga kultywowania bogatego ekosystemu partnerstw w całej społeczności sztucznej inteligencji. Wersja Arctic pobudziła już współpracę z głównymi platformami i dostawcami:

NVIDIA ściśle współpracowała z firmą Snowflake, aby zoptymalizować Arctic pod kątem wydajnego wdrożenia przy użyciu najnowocześniejszego stosu wnioskowania AI firmy NVIDIA, w tym TensorRT, Triton i innych. Dzięki temu przedsiębiorstwa mogą obsługiwać Arktykę na dużą skalę w opłacalny sposób.

Hugging Face, wiodące centrum modeli open source, z radością powitało firmę Arctic w swoich bibliotekach i repozytoriach modeli. Umożliwia to bezproblemową integrację Arctic z istniejącymi przepływami pracy i aplikacjami AI opartymi na Hugging Face.

Platformy takie jak Replicate, SageMaker i inne szybko zaczęły oferować hostowane wersje demonstracyjne, interfejsy API i płynne ścieżki integracji dla Arctic, przyspieszając jej przyjęcie.

Otwarte oprogramowanie sterowało rozwojem Arktyki, a otwarte ekosystemy pozostają centralnym elementem jej ewolucji. Snowflake angażuje się w wspieranie bogatej współpracy z badaczami, programistami, partnerami i przedsiębiorstwami na całym świecie, aby przesuwać granice możliwości dzięki otwartym, wyspecjalizowanym modelom sztucznej inteligencji.

Powiązane tematy:Badania AI Arctic Przedsiębiorstwa LLM Mieszanka Ekspertów Snowflake transformator

W przyszłym

Mini-Gemini: wydobywanie potencjału multimodalnych modeli języka wizyjnego

Nie przegap

AIOS: system operacyjny dla agentów LLM

Aayush Mittal

Ostatnie pięć lat spędziłem zanurzając się w fascynującym świecie uczenia maszynowego i głębokiego uczenia się. Moja pasja i wiedza sprawiły, że uczestniczyłem w ponad 50 różnorodnych projektach z zakresu inżynierii oprogramowania, ze szczególnym uwzględnieniem AI/ML. Moja ciągła ciekawość przyciągnęła mnie również w stronę przetwarzania języka naturalnego – dziedziny, którą chcę dalej zgłębiać.