Connect with us

Enthüllung von Meta Llama 3: Ein Sprung nach vorn bei Large Language Models

Künstliche Intelligenz

Enthüllung von Meta Llama 3: Ein Sprung nach vorn bei Large Language Models

mm

Im Bereich der generativen KI setzt Meta mit seinem Engagement für Open-Source-Verfügbarkeit und der globalen Verteilung seiner fortschrittlichen Large Language Model Meta AI (Llama)-Serie an Entwickler und Forscher Maßstäbe. Als Fortsetzung seiner progressiven Initiativen hat Meta kürzlich die dritte Iteration dieser Serie, Llama 3, vorgestellt. Diese neue Ausgabe verbessert sich erheblich gegenüber Llama 2 und bietet zahlreiche Verbesserungen, die Branchenkonkurrenten wie Google, Mistral und Anthropic herausfordern. Dieser Artikel erforscht die bedeutenden Fortschritte von Llama 3 und wie es im Vergleich zu seinem Vorgänger, Llama 2, abschneidet.

Meta’s Llama-Serie: Von exklusiv zu Open Access und verbesserter Leistung

Meta startete seine Llama-Serie im Jahr 2022 mit dem Launch von Llama 1, einem Modell, das aufgrund der enormen Rechenanforderungen und der proprietären Natur, die zu diesem Zeitpunkt die Spitzenleistungen von LLMs kennzeichneten, nur für nichtkommerzielle Zwecke und nur für ausgewählte Forschungseinrichtungen zugänglich war. Im Jahr 2023 schwenkte Meta AI mit der Einführung von Llama 2 auf eine größere Offenheit um, indem das Modell kostenlos für Forschung und kommerzielle Zwecke angeboten wurde. Diese Maßnahme sollte den Zugang zu fortschrittlichen generativen KI-Technologien demokratisieren und es einer breiteren Nutzergruppe, einschließlich Start-ups und kleinerer Forschungsteams, ermöglichen, innovative Anwendungen ohne die typischerweise mit großen Modellen verbundenen hohen Kosten zu entwickeln. Meta setzt diese Offenheit mit der Einführung von Llama 3 fort, das sich auf die Verbesserung der Leistung kleinerer Modelle in verschiedenen industriellen Benchmarks konzentriert.

Vorstellung von Llama 3

Llama 3 ist die zweite Generation von Meta’s Open-Source-Large-Language-Modellen (LLMs) und umfasst sowohl vorgefertigte als auch anweisungsfein abgestimmte Modelle mit 8B und 70B Parametern. In Übereinstimmung mit seinen Vorgängern verwendet Llama 3 eine nur-DecodiererTransformer-Architektur und setzt die Praxis der autoregressiven, selbstüberwachten Ausbildung fort, um darauf folgende Token in Textsequenzen vorherzusagen. Llama 3 wurde auf einem Datensatz trainiert, der sieben Mal größer ist als der für Llama 2, mit über 15 Billionen Token, die aus einem neu kuratierten Mix öffentlich verfügbarer Online-Daten stammen. Dieser umfangreiche Datensatz wird mit zwei Clustern verarbeitet, die mit 24.000 GPUs ausgestattet sind. Um die hohe Qualität dieser Trainingsdaten zu gewährleisten, wurden verschiedene Data-Centric-AI-Techniken eingesetzt, darunter heuristische und NSFW-Filter, semantische Deduplizierung und Textqualitätsklassifizierung. Speziell für Dialoganwendungen wurde das Llama 3 Instruct-Modell erheblich verbessert und umfasst über 10 Millionen von Menschen annotierte Datensamples und nutzt eine Vielzahl von Trainingsmethoden wie überwachtes Feintuning (SFT), Ablehnungsstichproben, Proximal-Policy-Optimierung (PPO) und direkte Richtlinienoptimierung (DPO).

Llama 3 vs. Llama 2: Schlüsselverbesserungen

Llama 3 bringt mehrere Verbesserungen gegenüber Llama 2, die seine Funktionalität und Leistung erheblich steigern:

  • Erweitertes Vokabular: Llama 3 hat sein Vokabular auf 128.256 Token erweitert, gegenüber 32.000 Token bei Llama 2. Diese Verbesserung unterstützt eine effizientere Textcodierung für sowohl Eingaben als auch Ausgaben und stärkt seine multilingualen Fähigkeiten.
  • Verlängerte Kontextlänge: Llama 3-Modelle bieten eine Kontextlänge von 8.000 Token, was doppelt so viel ist wie die 4.090 Token, die von Llama 2 unterstützt werden. Diese Erhöhung ermöglicht die Bearbeitung umfangreicherer Inhalte, die sowohl Benutzereingaben als auch Modellantworten umfassen.
  • Aufgerüstete Trainingsdaten: Der Trainingsdatensatz für Llama 3 ist sieben Mal größer als der für Llama 2 und enthält vier Mal mehr Code. Er umfasst über 5 % hochwertige, nicht-englische Daten, die mehr als 30 Sprachen abdecken, was für die Unterstützung multilingualer Anwendungen von entscheidender Bedeutung ist. Diese Daten unterliegen einer strengen Qualitätskontrolle mithilfe fortschrittlicher Techniken wie heuristischen und NSFW-Filtern, semantischer Deduplizierung und Textklassifizierungen.
  • Verfeinertes Anweisungsfeinabstimmung und Auswertung: Im Gegensatz zu Llama 2 verwendet Llama 3 fortschrittliche Anweisungsfeinabstimmungstechniken, einschließlich überwachtem Feintuning (SFT), Ablehnungsstichproben, Proximal-Policy-Optimierung (PPO) und direkter Richtlinienoptimierung (DPO). Um diesen Prozess zu ergänzen, wurde ein neuer hochwertiger menschlicher Auswertungssatz eingeführt, der 1.800 Eingaben abdeckt, die diverse Anwendungsfälle wie Beratung, Brainstorming, Klassifizierung, Codierung und mehr umfassen, um eine umfassende Bewertung und Feinabstimmung der Fähigkeiten des Modells zu gewährleisten.
  • Erweiterte KI-Sicherheit: Llama 3, wie auch Llama 2, integriert strenge Sicherheitsmaßnahmen wie Anweisungsfeinabstimmung und umfassendes Red-Teaming, um Risiken, insbesondere in kritischen Bereichen wie Cybersicherheit und biologischen Bedrohungen, zu mindern. Zur Unterstützung dieser Bemühungen hat Meta auch Llama Guard 2 eingeführt, das auf der 8B-Version von Llama 3 fein abgestimmt wurde. Dieses neue Modell erweitert die Llama-Guard-Serie und klassifiziert LLM-Eingaben und -Antworten, um potenziell unsichere Inhalte zu identifizieren, was es ideal für Produktionsumgebungen macht.

Verfügbarkeit von Llama 3

Llama 3-Modelle sind jetzt in das Hugging Face-Ökosystem integriert, was die Zugänglichkeit für Entwickler erhöht. Die Modelle sind auch über Model-as-a-Service-Plattformen wie Perplexity Labs und Fireworks.ai sowie auf Cloud-Plattformen wie AWS SageMaker, Azure ML und Vertex AI verfügbar. Meta plant, die Verfügbarkeit von Llama 3 weiter zu erweitern, einschließlich Plattformen wie Google Cloud, Kaggle, IBM WatsonX, NVIDIA NIM und Snowflake. Darüber hinaus wird die Hardware-Unterstützung für Llama 3 auf Plattformen von AMD, AWS, Dell, Intel, NVIDIA und Qualcomm erweitert.

Zukünftige Verbesserungen in Llama 3

Meta hat bekannt gegeben, dass die aktuelle Veröffentlichung von Llama 3 nur die erste Phase in ihrem umfassenderen Vision für die vollständige Version von Llama 3 darstellt. Sie entwickeln ein fortschrittliches Modell mit über 400 Milliarden Parametern, das neue Funktionen wie Multimodalität und die Fähigkeit, mehrere Sprachen zu bearbeiten, einführen wird. Diese erweiterte Version wird auch ein erheblich verlängertes Kontextfenster und verbesserte Gesamtleistungsfähigkeiten aufweisen.

Fazit

Meta’s Llama 3 markiert eine bedeutende Evolution im Bereich der Large Language Models, indem es die Serie nicht nur in Richtung größerer Open-Source-Zugänglichkeit, sondern auch erheblich verbesserter Leistungsfähigkeit vorantreibt. Mit einem Trainingsdatensatz, der sieben Mal größer ist als der seines Vorgängers, und Funktionen wie erweitertem Vokabular und verlängerter Kontextlänge setzt Llama 3 neue Maßstäbe, die sogar die stärksten Branchenkonkurrenten herausfordern.

Diese dritte Iteration setzt nicht nur die Demokratisierung von KI-Technologie fort, indem sie hochentwickelte Fähigkeiten einer breiteren Entwicklerschicht zugänglich macht, sondern führt auch bedeutende Fortschritte in Sachen Sicherheit und Trainingspräzision ein. Durch die Integration dieser Modelle in Plattformen wie Hugging Face und die Erweiterung der Verfügbarkeit über große Cloud-Dienste stellt Meta sicher, dass Llama 3 nicht nur allgegenwärtig, sondern auch leistungsstark ist.

In Zukunft verspricht Metas anhaltende Entwicklung noch leistungsfähigere Fähigkeiten, einschließlich Multimodalität und erweiterter Sprachunterstützung, und bereitet den Boden dafür, dass Llama 3 nicht nur mit anderen großen KI-Modellen im Markt konkurriert, sondern diese möglicherweise sogar übertrifft. Llama 3 ist ein Zeichen von Metas Engagement, die KI-Revolution anzuführen und Werkzeuge bereitzustellen, die nicht nur zugänglicher, sondern auch erheblich fortschrittlicher und sicherer für eine globale Nutzerbasis sind.

Dr. Tehseen Zia ist ein fest angestellter Associate Professor an der COMSATS University Islamabad, der einen PhD in KI von der Vienna University of Technology, Österreich, besitzt. Er spezialisiert sich auf künstliche Intelligenz, Machine Learning, Data Science und Computer Vision und hat mit Veröffentlichungen in renommierten wissenschaftlichen Zeitschriften wesentliche Beiträge geleistet. Dr. Tehseen hat auch verschiedene industrielle Projekte als Principal Investigator geleitet und als KI-Berater fungiert.