Artificial Intelligence

Snowflake Arctic: Das hochmoderne LLM für Unternehmens-KI

Veröffentlicht

2 Wochen her

25. April 2024

Snowflake Arctic: Das hochmoderne LLM für Unternehmens-KI

Unternehmen suchen heute zunehmend nach Möglichkeiten, große Sprachmodelle (LLMs) zu nutzen, um die Produktivität zu steigern und intelligente Anwendungen zu erstellen. Bei vielen der verfügbaren LLM-Optionen handelt es sich jedoch um generische Modelle, die nicht auf spezielle Unternehmensanforderungen wie Datenanalyse, Codierung und Aufgabenautomatisierung zugeschnitten sind. Eingeben Schneeflocken-Arktis – ein hochmodernes LLM, das gezielt für zentrale Unternehmensanwendungsfälle entwickelt und optimiert wurde.

Arctic wurde vom KI-Forschungsteam von Snowflake entwickelt und verschiebt die Grenzen des Möglichen durch effizientes Training, Kosteneffizienz und ein beispielloses Maß an Offenheit. Dieses revolutionäre Modell übertrifft wichtige Unternehmens-Benchmarks und benötigt im Vergleich zu bestehenden LLMs weitaus weniger Rechenleistung. Lassen Sie uns untersuchen, was Arctic zu einem Game-Changer für Unternehmens-KI macht.

Enterprise Intelligence neu definiert Im Kern konzentriert sich Arctic darauf, außergewöhnliche Leistung bei Kennzahlen zu liefern, die für Unternehmen wirklich wichtig sind – Codierung, SQL-Abfragen, komplexe Befehlsfolge und die Erstellung fundierter, faktenbasierter Ergebnisse. Snowflake hat diese entscheidenden Fähigkeiten in einem Roman zusammengefasst.Unternehmensintelligenz" metrisch.

Die Ergebnisse sprechen für sich. Arctic erreicht oder übertrifft Modelle wie LLAMA 7B und LLAMA 70B bei Enterprise-Intelligence-Benchmarks und verbraucht dabei weniger als die Hälfte des Rechenbudgets für Schulungen. Bemerkenswert, trotz Nutzung 17-mal weniger Rechenressourcen als LLAMA 70BArctic erreicht Parität bei speziellen Tests wie Codierung (HumanEval+, MBPP+), SQL-Generierung (Spider) und Befehlsfolge (IFEval).

Aber die Leistungsfähigkeit von Arctic geht über das bloße Übertreffen von Unternehmensmaßstäben hinaus. Im Vergleich zu Modellen, die mit exponentiell höheren Rechenbudgets wie DBRX trainiert wurden, bietet es eine starke Leistung in den Bereichen allgemeines Sprachverständnis, Argumentation und mathematische Fähigkeiten. Diese ganzheitliche Fähigkeit macht Arctic zu einer unschlagbaren Wahl für die Bewältigung der vielfältigen KI-Anforderungen eines Unternehmens.

Die Innovation

Dense-MoE-Hybridtransformator Wie hat das Snowflake-Team einen so unglaublich leistungsfähigen und dennoch effizienten LLM gebaut? Die Antwort liegt in der hochmodernen Dense Mixture-of-Experts (MoE) Hybrid Transformer-Architektur von Arctic.

Das Trainieren herkömmlicher dichter Transformatormodelle wird mit zunehmender Größe immer kostspieliger und der Rechenaufwand steigt linear. Das MoE-Design hilft, dies zu umgehen, indem es mehrere parallele Feed-Forward-Netzwerke (Experten) nutzt und nur eine Teilmenge für jedes Eingabe-Token aktiviert.

Allerdings reicht die einfache Verwendung einer MoE-Architektur nicht aus – Arctic kombiniert die Stärken von Dense- und MoE-Komponenten auf geniale Weise. Es kombiniert einen 10-Milliarden-Parameter-dichten Transformator-Encoder mit einer 128 Experten-Rest-MoE-Mehrschicht-Perzeptronschicht (MLP). Dieses Dense-MoE-Hybridmodell umfasst insgesamt 480 Milliarden Parameter, aber mit Top-17-Gating sind zu jedem Zeitpunkt nur 2 Milliarden aktiv.

Die Auswirkungen sind tiefgreifend: Arctic erreicht eine beispiellose Modellqualität und -kapazität und bleibt dabei beim Training und bei der Inferenz bemerkenswert recheneffizient. Beispielsweise hat Arctic während der Inferenz 50 % weniger aktive Parameter als Modelle wie DBRX.

Doch Modellarchitektur ist nur ein Teil der Geschichte. Die Exzellenz von Arctic ist der Höhepunkt mehrerer bahnbrechender Techniken und Erkenntnisse, die vom Snowflake-Forschungsteam entwickelt wurden:

Unternehmensorientierter Lehrplan für Schulungsdaten Durch umfangreiche Experimente hat das Team herausgefunden, dass allgemeine Fertigkeiten wie gesundes Denken frühzeitig erlernt werden sollten, während komplexere Spezialisierungen wie Codierung und SQL am besten später im Schulungsprozess erworben werden. Der Datenlehrplan von Arctic folgt einem dreistufigen Ansatz, der menschliche Lernfortschritte nachahmt.

Der Fokus der ersten Teratokens liegt auf dem Aufbau einer breiten allgemeinen Basis. Die nächsten 1.5 Teratokens konzentrieren sich auf die Entwicklung von Unternehmenskompetenzen durch auf SQL zugeschnittene Daten, Codierungsaufgaben und mehr. Die endgültigen Teratokens verfeinern die Spezialisierungen von Arctic mithilfe verfeinerter Datensätze weiter.

Optimale architektonische Entscheidungen Während MoEs eine bessere Qualität pro Rechenleistung versprechen, ist die Auswahl der richtigen Konfigurationen von entscheidender Bedeutung, wird aber kaum verstanden. Durch detaillierte Recherchen gelangte Snowflake zu einer Architektur, die 128 Experten beschäftigt und nach der Bewertung von Kompromissen zwischen Qualität und Effizienz die zwei besten Gatings für jede Schicht aufweist.

Die Erhöhung der Anzahl der Experten ermöglicht mehr Kombinationen und erhöht die Modellkapazität. Allerdings steigen dadurch auch die Kommunikationskosten, sodass Snowflake bei 128 sorgfältig konzipierten „kondensierten“ Experten landete, die über Top-2-Gating als optimale Balance aktiviert wurden.

System-Co-Design Aber auch eine optimale Modellarchitektur kann durch Systemengpässe untergraben werden. Daher hat das Snowflake-Team auch hier Innovationen hervorgebracht und die Modellarchitektur Hand in Hand mit den zugrunde liegenden Trainings- und Inferenzsystemen gemeinsam entworfen.

Für ein effizientes Training wurden die dichten und MoE-Komponenten so strukturiert, dass überlappende Kommunikation und Berechnungen möglich sind, wodurch ein erheblicher Kommunikationsaufwand verborgen bleibt. Was die Schlussfolgerung betrifft, nutzte das Team die Innovationen von NVIDIA, um trotz der Größe von Arctic eine hocheffiziente Bereitstellung zu ermöglichen.

Techniken wie die FP8-Quantisierung ermöglichen die Anpassung des vollständigen Modells an einen einzelnen GPU-Knoten für interaktive Inferenz. Größere Batches nutzen die Parallelitätsfähigkeiten von Arctic über mehrere Knoten hinweg und bleiben dank der kompakten aktiven Parameter von 17B beeindruckend recheneffizient.

Mit einer Apache 2.0-Lizenz stehen die Gewichte und der Code von Arctic für den persönlichen, wissenschaftlichen oder kommerziellen Gebrauch uneingeschränkt zur Verfügung. Aber Snowflake ist noch viel weiter gegangen und hat seine kompletten Datenrezepte, Modellimplementierungen, Tipps und die tiefgreifenden Forschungserkenntnisse, die Arctic zugrunde liegen, als Open-Source-Lösung bereitgestellt.

Das "Arktisches Kochbuch„ist eine umfassende Wissensdatenbank, die alle Aspekte des Aufbaus und der Optimierung eines groß angelegten MoE-Modells wie Arctic abdeckt. Es bündelt wichtige Erkenntnisse aus den Bereichen Datenbeschaffung, Modellarchitekturdesign, System-Co-Design, optimierte Trainings-/Inferenzschemata und mehr.

Von der Ermittlung optimaler Datenlehrpläne über die Architektur von MoEs bis hin zur gemeinsamen Optimierung von Compilern, Schedulern und Hardware – dieser umfangreiche Wissensschatz demokratisiert Fähigkeiten, die bisher auf Elite-KI-Labore beschränkt waren. Das Arctic Cookbook beschleunigt die Lernkurve und ermöglicht Unternehmen, Forschern und Entwicklern auf der ganzen Welt, ihre eigenen kostengünstigen, maßgeschneiderten LLMs für praktisch jeden Anwendungsfall zu erstellen.

Erste Schritte mit Arctic

Für Unternehmen, die Arctic nutzen möchten, bietet Snowflake mehrere Möglichkeiten für einen schnellen Einstieg:

Serverlose Inferenz: Snowflake-Kunden können kostenlos auf Snowflake Cortex, der vollständig verwalteten KI-Plattform des Unternehmens, auf das Arctic-Modell zugreifen. Darüber hinaus ist Arctic in allen wichtigen Modellkatalogen wie AWS, Microsoft Azure, NVIDIA und mehr verfügbar.

Von Grund auf neu beginnen: Die Gewichtungen und Implementierungen des Open-Source-Modells ermöglichen es Entwicklern, Arctic direkt in ihre Apps und Dienste zu integrieren. Das Arctic-Repository bietet Codebeispiele, Bereitstellungs-Tutorials, Rezepte zur Feinabstimmung und mehr.

Erstellen Sie benutzerdefinierte Modelle: Dank der umfassenden Leitfäden des Arctic Cookbook können Entwickler ihre eigenen benutzerdefinierten MoE-Modelle von Grund auf erstellen, die für jeden speziellen Anwendungsfall optimiert sind, und dabei die Erkenntnisse aus der Entwicklung von Arctic nutzen.

Eine neue Ära offener Unternehmens-KI Arctic ist mehr als nur ein weiteres leistungsstarkes Sprachmodell – es läutet eine neue Ära offener, kosteneffizienter und spezialisierter KI-Funktionen ein, die speziell für Unternehmen entwickelt wurden.

Von der Revolutionierung der Datenanalyse und Codierungsproduktivität bis hin zur Automatisierung von Aufgaben und intelligenteren Anwendungen macht Arctics unternehmensorientierte DNA es zu einer unschlagbaren Wahl gegenüber generischen LLMs. Und indem Snowflake nicht nur das Modell, sondern den gesamten F&E-Prozess dahinter als Open Source bereitstellt, fördert es eine Kultur der Zusammenarbeit, die das gesamte KI-Ökosystem aufwerten wird.

Da Unternehmen zunehmend auf generative KI setzen, bietet Arctic einen mutigen Plan für die Entwicklung von Modellen, die für Produktions-Workloads und Unternehmensumgebungen objektiv überlegen sind. Das Zusammenspiel von Spitzenforschung, unübertroffener Effizienz und einem unerschütterlichen offenen Ethos setzt neue Maßstäbe bei der Demokratisierung des transformativen Potenzials der KI.

Hier ist ein Abschnitt mit Codebeispielen zur Verwendung des Snowflake Arctic-Modells:

Mit Arctic zum Anfassen

Nachdem wir nun erläutert haben, was Arctic wirklich bahnbrechend macht, wollen wir uns damit befassen, wie Entwickler und Datenwissenschaftler beginnen können, dieses leistungsstarke Modell in die Tat umzusetzen.
Arctic ist sofort einsatzbereit und kann über große Modellhubs wie Hugging Face und Partner-KI-Plattformen bereitgestellt werden. Die wahre Stärke entfaltet sich jedoch erst, wenn Sie es an Ihre spezifischen Anwendungsfälle anpassen und verfeinern.

Die Apache 2.0-Lizenz von Arctic bietet volle Freiheit bei der Integration in Ihre Apps, Dienste oder benutzerdefinierten KI-Workflows. Lassen Sie uns einige Codebeispiele mit der Transformers-Bibliothek durchgehen, um Ihnen den Einstieg zu erleichtern:
Grundlegende Schlussfolgerung mit der Arktis

Für Anwendungsfälle zur schnellen Textgenerierung können wir Arctic laden und ganz einfach grundlegende Inferenzen ausführen:

from transformers import AutoTokenizer, AutoModelForCausalLM
# Load the tokenizer and model
tokenizer = AutoTokenizer.from_pretrained("Snowflake/snowflake-arctic-instruct")
model = AutoModelForCausalLM.from_pretrained("Snowflake/snowflake-arctic-instruct")
# Create a simple input and generate text
input_text = "Here is a basic question: What is the capital of France?"
input_ids = tokenizer.encode(input_text, return_tensors="pt")
# Generate response with Arctic
output = model.generate(input_ids, max_length=150, do_sample=True, top_k=50, top_p=0.95, num_return_sequences=1)
generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
print(generated_text)

Dies sollte etwa Folgendes ausgeben:

"Die Hauptstadt von Frankreich ist Paris. Paris ist die größte Stadt Frankreichs und das wirtschaftliche, politische und kulturelle Zentrum des Landes. Es beherbergt berühmte Sehenswürdigkeiten wie den Eiffelturm, das Louvre-Museum und die Kathedrale Notre-Dame.“

Wie Sie sehen, versteht Arctic die Anfrage nahtlos und liefert mithilfe seiner robusten Sprachverständnisfunktionen eine detaillierte, fundierte Antwort.

Feinabstimmung für spezielle Aufgaben

Obwohl Arctic bereits im Auslieferungszustand beeindruckend ist, glänzt es wirklich, wenn es individuell angepasst und auf Ihre proprietären Daten für spezielle Aufgaben abgestimmt wird. Snowflake hat umfangreiche Rezepte bereitgestellt, die Folgendes umfassen:

Kuratieren hochwertiger Trainingsdaten, die auf Ihren Anwendungsfall zugeschnitten sind
Implementierung maßgeschneiderter mehrstufiger Schulungspläne
Nutzung effizienter LoRA-, P-Tuning- oder FactorizedFusion-Feinabstimmungsansätze
Optimierungen für anspruchsvolle SQL-, Programmier- oder andere wichtige Unternehmenskenntnisse

Hier ist ein Beispiel für die Feinabstimmung von Arctic anhand Ihrer eigenen Codierungsdatensätze mithilfe der LoRA- und Snowflake-Rezepte:

from transformers import AutoModelForCausalLM, AutoTokenizer
from peft import LoraConfig, get_peft_model, prepare_model_for_int8_training
# Load base Arctic model
tokenizer = AutoTokenizer.from_pretrained("Snowflake/snowflake-arctic-instruct")
model = AutoModelForCausalLM.from_pretrained("Snowflake/snowflake-arctic-instruct", load_in_8bit=True)
# Initialize LoRA configs
lora_config = LoraConfig(
r=8,
lora_alpha=16,
target_modules=["query_key_value"],
lora_dropout=0.05,
bias="none",
task_type="CAUSAL_LM"
)
# Prepare model for LoRA finetuning
model = prepare_model_for_int8_training(model)
model = get_peft_model(model, lora_config)
# Your coding datasets
data = load_coding_datasets()
# Fine-tune with Snowflake's recipes
train(model, data, ...)

Dieser Code veranschaulicht, wie Sie Arctic mühelos laden, eine auf die Codegenerierung zugeschnittene LoRA-Konfiguration initialisieren und dann das Modell mithilfe der Anleitung von Snowflake anhand Ihrer proprietären Codierungsdatensätze verfeinern können.

Maßgeschneidert und fein abgestimmt wird Arctic zu einem privaten Kraftpaket, das darauf abgestimmt ist, unübertroffene Leistung für Ihre zentralen Unternehmensabläufe und Stakeholder-Bedürfnisse zu liefern.

Der schnelle Innovationszyklus der Arktis

Einer der beeindruckendsten Aspekte von Arctic ist das rasante Tempo, mit dem das KI-Forschungsteam von Snowflake dieses hochmoderne Modell konzipiert, entwickelt und der Welt vorgestellt hat. Von der Gründung bis zur Open-Source-Veröffentlichung dauerte das gesamte Arctic-Projekt weniger als drei Monate und nutzte nur etwa ein Achtel des Rechenbudgets, das für das Training ähnlicher großer Sprachmodelle typisch ist.

Diese Fähigkeit, hochmoderne KI-Forschung schnell zu iterieren, zu innovieren und zu produzieren, ist wirklich bemerkenswert. Es demonstriert die umfassenden technischen Fähigkeiten von Snowflake und versetzt das Unternehmen in die Lage, die Grenzen bei der Entwicklung neuartiger, unternehmensoptimierter KI-Funktionen kontinuierlich zu erweitern.

Die arktische Familie und Einbettungen

Arctic ist nur der Anfang der Ambitionen von Snowflake im LLM-Bereich für Unternehmen. Das Unternehmen hat die Snowflake Arctic Embed-Familie mit branchenführenden Texteinbettungsmodellen, die für die Abrufleistung über mehrere Größenprofile hinweg optimiert sind, bereits als Open-Source-Lösung bereitgestellt.

Wie unten dargestellt, erreichen die Arctic Embed-Modelle eine hochmoderne Abrufgenauigkeit beim angesehenen MTEB-Benchmark (Textabruf) und übertreffen damit andere führende Einbettungsmodelle, einschließlich geschlossener Angebote großer Technologiegiganten.

[Bild einfügen, das die MTEB-Retrieval-Benchmark-Ergebnisse für Arctic Embed-Modelle zeigt]

Diese Einbettungsmodelle ergänzen das Arctic LLM und ermöglichen es Unternehmen, leistungsstarke Lösungen zur Frage-Antwort- und Retrieval-Augmented-Generierung aus einem integrierten Open-Source-Stack zu entwickeln.

Aber die Roadmap von Snowflake geht weit über Arctic und Einbettungen hinaus. Die KI-Forscher des Unternehmens arbeiten intensiv daran, die Arktis-Familie um neue Modelle zu erweitern, die auf multimodale Aufgaben, Sprache, Video und weitere Grenzfunktionen zugeschnitten sind – und alle auf den gleichen Prinzipien der Spezialisierung, Effizienz und Offenheit basieren.

Partnerschaft für ein offenes KI-Ökosystem Snowflake ist sich bewusst, dass die Ausschöpfung des vollen Potenzials offener KI auf Unternehmensebene die Pflege eines umfassenden Ökosystems von Partnerschaften in der gesamten KI-Community erfordert. Die Veröffentlichung von Arctic hat bereits zu Kooperationen mit wichtigen Plattformen und Anbietern geführt:

NVIDIA hat eng mit Snowflake zusammengearbeitet, um Arctic für eine effiziente Bereitstellung mithilfe des hochmodernen KI-Inferenz-Stacks von NVIDIA, einschließlich TensorRT, Triton und mehr, zu optimieren. Dies ermöglicht es Unternehmen, die Arktis kosteneffizient in großem Maßstab zu beliefern.

Hugging Face, der führende Open-Source-Modell-Hub, hat Arctic in seine Bibliotheken und Modell-Repositories aufgenommen. Dies ermöglicht eine nahtlose Integration von Arctic in bestehende Hugging Face-basierte KI-Workflows und -Anwendungen.

Plattformen wie Replicate, SageMaker und andere sind schnell dazu übergegangen, gehostete Demos, APIs und reibungslose Integrationspfade für Arctic anzubieten und so die Akzeptanz zu beschleunigen.

Open Source hat die Entwicklung der Arktis gesteuert, und offene Ökosysteme bleiben für ihre Entwicklung von zentraler Bedeutung. Snowflake setzt sich dafür ein, eine intensive Zusammenarbeit mit Forschern, Entwicklern, Partnern und Unternehmen auf der ganzen Welt zu fördern, um die Grenzen dessen zu erweitern, was mit offenen, spezialisierten KI-Modellen möglich ist.

Als nächstes

Mini-Gemini: Das Potenzial multimodaler Vision-Sprachmodelle ausschöpfen

Verpassen Sie nicht

AIOS: Betriebssystem für LLM-Agenten

Aayush Mittal

Ich habe die letzten fünf Jahre damit verbracht, in die faszinierende Welt des maschinellen Lernens und des Deep Learning einzutauchen. Meine Leidenschaft und mein Fachwissen haben dazu geführt, dass ich an über 50 verschiedenen Software-Engineering-Projekten mitgewirkt habe, mit besonderem Schwerpunkt auf KI/ML. Meine anhaltende Neugier hat mich auch zur Verarbeitung natürlicher Sprache geführt, einem Bereich, den ich gerne weiter erforschen möchte.