Stummel Die 5 besten Open-Source-LLMs (April 2024) – Unite.AI
Vernetzen Sie sich mit uns
Array ( [ID] => 1 [user_firstname] => Antoine [user_lastname] => Tardif [Spitzname] => Antoine Tardif [user_nicename] => admin [display_name] => Antoine Tardif [user_email] => [E-Mail geschützt] 
    [user_url] => [user_registered] => 2018 08:27:14 [user_description] => Ein Gründungspartner von unite.AI und Mitglied der Forbes Technology Council, Antoine ist ein Futurist der sich leidenschaftlich für die Zukunft von KI und Robotik interessiert. Er ist auch der Gründer von Wertpapiere.io, eine Website, die sich auf Investitionen in bahnbrechende Technologien konzentriert. [user_avatar] => mm
)

Best Of

Die 5 besten Open-Source-LLMs (April 2024)

Aktualisiert on
Open-Source-LLMs

In der sich schnell entwickelnden Welt der künstlichen Intelligenz (KI) haben sich Large Language Models (LLMs) als Eckpfeiler herauskristallisiert, die Innovationen vorantreiben und die Art und Weise, wie wir mit Technologie interagieren, neu gestalten.

Da diese Modelle immer ausgefeilter werden, liegt der Schwerpunkt zunehmend auf der Demokratisierung des Zugangs zu ihnen. Insbesondere Open-Source-Modelle spielen bei dieser Demokratisierung eine zentrale Rolle und bieten Forschern, Entwicklern und Enthusiasten gleichermaßen die Möglichkeit, tief in ihre Feinheiten einzutauchen, sie für bestimmte Aufgaben zu verfeinern oder sogar auf ihren Grundlagen aufzubauen.

In diesem Blog werden wir einige der besten Open-Source-LLMs erkunden, die in der KI-Community für Aufsehen sorgen und von denen jedes seine einzigartigen Stärken und Fähigkeiten einbringt.

1. Lama 2

Lernen Sie Llama 2 kennen: Alles, was Sie brauchen, um mit dem Bauen zu beginnen

Metas Llama 2 ist eine bahnbrechende Ergänzung ihrer KI-Modellreihe. Dies ist nicht nur ein weiteres Modell; Es wurde entwickelt, um eine Reihe hochmoderner Anwendungen voranzutreiben. Die Trainingsdaten von Llama 2 sind umfangreich und vielfältig, was es zu einem erheblichen Fortschritt gegenüber seinem Vorgänger macht. Diese Vielfalt in der Ausbildung stellt sicher, dass Llama 2 nicht nur eine schrittweise Verbesserung, sondern einen monumentalen Schritt in Richtung der Zukunft KI-gesteuerter Interaktionen darstellt.

Die Zusammenarbeit zwischen Meta und Microsoft hat den Horizont für Llama 2 erweitert. Das Open-Source-Modell wird jetzt auf Plattformen wie Azure und Windows unterstützt und zielt darauf ab, Entwicklern und Organisationen die Tools zur Verfügung zu stellen, mit denen sie generative KI-gesteuerte Erlebnisse erstellen können. Diese Partnerschaft unterstreicht das Engagement beider Unternehmen, KI für alle zugänglicher und offener zu machen.

Llama 2 ist nicht nur ein Nachfolger des ursprünglichen Llama-Modells; Es stellt einen Paradigmenwechsel im Chatbot-Bereich dar. Während das erste Llama-Modell bei der Generierung von Text und Code revolutionär war, war seine Verfügbarkeit begrenzt, um Missbrauch zu verhindern. Llama 2 hingegen soll ein breiteres Publikum erreichen. Es ist für Plattformen wie AWS, Azure und die AI-Modell-Hosting-Plattform von Hugging Face optimiert. Darüber hinaus ist Llama 2 durch die Zusammenarbeit von Meta mit Microsoft bereit, nicht nur auf Windows, sondern auch auf Geräten mit dem Snapdragon System-on-Chip von Qualcomm einen bleibenden Eindruck zu hinterlassen.

Sicherheit steht im Mittelpunkt des Designs von Llama 2. Meta hat die Herausforderungen erkannt, mit denen frühere große Sprachmodelle wie GPT konfrontiert waren, die manchmal irreführende oder schädliche Inhalte produzierten, und umfangreiche Maßnahmen ergriffen, um die Zuverlässigkeit von Llama 2 sicherzustellen. Das Modell wurde einer strengen Schulung unterzogen, um „Halluzinationen“, Fehlinformationen und Vorurteile zu minimieren.

Top-Features von LLaMa 2:

  • Verschiedene Trainingsdaten: Die Trainingsdaten von Llama 2 sind sowohl umfangreich als auch vielfältig und gewährleisten ein umfassendes Verständnis und eine umfassende Leistung.
  • Zusammenarbeit mit Microsoft: Llama 2 wird auf Plattformen wie Azure und Windows unterstützt und erweitert so seinen Anwendungsbereich.
  • Offene Verfügbarkeit: Im Gegensatz zu seinem Vorgänger steht Llama 2 einem breiteren Publikum zur Verfügung und kann auf mehreren Plattformen verfeinert werden.
  • Sicherheitsorientiertes Design: Meta hat Wert auf Sicherheit gelegt und dafür gesorgt, dass Llama 2 genaue und zuverlässige Ergebnisse liefert und gleichzeitig schädliche Emissionen minimiert.
  • Optimierte Versionen: Llama 2 gibt es in zwei Hauptversionen – Llama 2 und Llama 2-Chat, wobei letztere speziell für wechselseitige Gespräche konzipiert ist. Die Komplexität dieser Versionen reicht von 7 bis 70 Milliarden Parametern.
  • Erweiterte Schulung: Llama 2 wurde mit zwei Millionen Token trainiert, eine deutliche Steigerung gegenüber den 1.4 Billionen Token des ursprünglichen Llama.

2. Blühen

Open-Source-Bloom-KI-Einführung

Im Jahr 2022 wurde das BLOOM-Projekt nach einer weltweiten Zusammenarbeit mit Freiwilligen aus über 70 Ländern und Experten von Hugging Face vorgestellt. Dieses im Rahmen einer einjährigen Initiative erstellte Large Language Model (LLM) ist für die autoregressive Textgenerierung konzipiert und in der Lage, eine bestimmte Texteingabeaufforderung zu erweitern. Es wurde auf einem riesigen Korpus von Textdaten trainiert und erforderte erhebliche Rechenleistung.

Das Debüt von BLOOM war ein bedeutender Schritt, um generative KI-Technologie zugänglicher zu machen. Als Open-Source-LLM verfügt es über 176 Milliarden Parameter und ist damit eines der beeindruckendsten seiner Klasse. BLOOM verfügt über die Kompetenz, kohärenten und präzisen Text in 46 Sprachen und 13 Programmiersprachen zu generieren.

Das Projekt legt Wert auf Transparenz und ermöglicht den öffentlichen Zugriff auf seinen Quellcode und seine Trainingsdaten. Diese Offenheit lädt zur kontinuierlichen Prüfung, Nutzung und Verbesserung des Modells ein.

BLOOM ist über die Hugging Face-Plattform kostenlos zugänglich und ein Beweis für kollaborative Innovation in der KI.

Top-Features von Bloom:

  • Mehrsprachigkeit: BLOOM beherrscht die Generierung von Texten in 46 Sprachen und 13 Programmiersprachen und stellt damit sein breites sprachliches Spektrum unter Beweis.
  • Open-Source-Zugriff: Der Quellcode und die Trainingsdaten des Modells sind öffentlich verfügbar, was Transparenz und gemeinsame Verbesserungen fördert.
  • Autoregressive Textgenerierung: BLOOM wurde entwickelt, um den Text einer bestimmten Eingabeaufforderung fortzusetzen, und zeichnet sich durch die Erweiterung und Vervollständigung von Textsequenzen aus.
  • Riesige Parameteranzahl: Mit 176 Milliarden Parametern gilt BLOOM als eines der leistungsstärksten Open-Source-LLMs, die es gibt.
  • Globale Zusammenarbeit: Entwickelt im Rahmen eines einjährigen Projekts mit Beiträgen von Freiwilligen aus mehr als 70 Ländern und Hugging Face-Forschern.
  • Kostenlose Zugänglichkeit: Benutzer können über das Hugging Face-Ökosystem kostenlos auf BLOOM zugreifen und es nutzen, wodurch die Demokratisierung im Bereich der KI vorangetrieben wird.
  • Schulung im industriellen Maßstab: Das Modell wurde mit großen Mengen an Textdaten unter Einsatz erheblicher Rechenressourcen trainiert, um eine robuste Leistung sicherzustellen.

3. MPT-7B

MPT-7B – Das erste kommerziell nutzbare, vollständig trainierte Modell im LLaMA-Stil

MosaicML Foundations hat mit der Einführung von MPT-7B, ihrem neuesten Open-Source-LLM, einen bedeutenden Beitrag zu diesem Bereich geleistet. MPT-7B, ein Akronym für „MosaicML Pretrained Transformer“, ist ein reines Decoder-Transformermodell im GPT-Stil. Dieses Modell verfügt über mehrere Verbesserungen, darunter leistungsoptimierte Layer-Implementierungen und Architekturänderungen, die eine größere Trainingsstabilität gewährleisten.

Ein herausragendes Merkmal von MPT-7B ist das Training anhand eines umfangreichen Datensatzes, der 1 Billion Text- und Code-Tokens umfasst. Dieses strenge Training wurde über einen Zeitraum von 9.5 Tagen auf der MosaikML-Plattform durchgeführt.

Der Open-Source-Charakter von MPT-7B macht es zu einem wertvollen Werkzeug für kommerzielle Anwendungen. Es birgt das Potenzial, prädiktive Analysen und die Entscheidungsprozesse von Unternehmen und Organisationen erheblich zu beeinflussen.

Zusätzlich zum Basismodell veröffentlicht MosaicML Foundations auch spezielle Modelle, die auf bestimmte Aufgaben zugeschnitten sind, wie z. B. MPT-7B-Instruct für die Befolgung von Anweisungen in Kurzform, MPT-7B-Chat für die Dialoggenerierung und MPT-7B-StoryWriter-65k+ für die Erstellung langer Geschichten.

Der Entwicklungsweg von MPT-7B war umfassend, wobei das MosaikML-Team alle Phasen von der Datenvorbereitung bis zur Bereitstellung innerhalb weniger Wochen bewältigte. Die Daten stammten aus verschiedenen Repositories und das Team nutzte Tools wie GPT-NeoX von EleutherAI und den 20B-Tokenizer, um einen abwechslungsreichen und umfassenden Trainingsmix sicherzustellen.

Übersicht über die wichtigsten Funktionen des MPT-7B:

  • Kommerzielle Lizenzierung: MPT-7B ist für die kommerzielle Nutzung lizenziert und daher ein wertvolles Gut für Unternehmen.
  • Umfangreiche Trainingsdaten: Das Modell verfügt über ein Training mit einem riesigen Datensatz von 1 Billion Token.
  • Handhabung langer Eingaben: MPT-7B ist darauf ausgelegt, extrem lange Eingaben kompromisslos zu verarbeiten.
  • Geschwindigkeit und Effizienz: Das Modell ist für schnelles Training und Inferenz optimiert und gewährleistet so zeitnahe Ergebnisse.
  • Open-Source-Code: MPT-7B wird mit effizientem Open-Source-Trainingscode geliefert, der Transparenz und Benutzerfreundlichkeit fördert.
  • Komparative Exzellenz: MPT-7B hat gegenüber anderen Open-Source-Modellen der 7B-20B-Reihe seine Überlegenheit bewiesen und seine Qualität entspricht der von LLaMA-7B.

4. Falke

Stellen Sie FALCON-180B sofort bereit! Das NEUE Nr. 1 Open-Source-KI-Modell

Falcon LLM ist ein Modell, das schnell an die Spitze der LLM-Hierarchie aufgestiegen ist. Falcon LLM, insbesondere Falcon-40B, ist ein grundlegendes LLM, das mit 40 Milliarden Parametern ausgestattet ist und auf beeindruckenden einer Billion Token trainiert wurde. Es arbeitet als rein autoregressives Decoder-Modell, was im Wesentlichen bedeutet, dass es den nachfolgenden Token in einer Sequenz basierend auf den vorhergehenden Token vorhersagt. Diese Architektur erinnert an das GPT-Modell. Bemerkenswert ist, dass die Falcon-Architektur eine überlegene Leistung gegenüber GPT-3 gezeigt hat und diese Leistung mit nur 75 % des Trainingsrechenbudgets und einem deutlich geringeren Rechenaufwand während der Inferenz erreicht hat.

Das Team des Technology Innovation Institute legte bei der Entwicklung von Falcon großen Wert auf die Datenqualität. Sie erkannten die Sensibilität von LLMs für die Qualität der Trainingsdaten und konstruierten eine Datenpipeline, die auf Zehntausende von CPU-Kernen skaliert werden konnte. Dies ermöglichte eine schnelle Verarbeitung und Extraktion hochwertiger Inhalte aus dem Web, was durch umfangreiche Filter- und Deduplizierungsprozesse erreicht wurde.

Neben Falcon-40B hat TII auch andere Versionen eingeführt, darunter Falcon-7B, das über 7 Milliarden Parameter verfügt und auf 1,500 Milliarden Token trainiert wurde. Es gibt auch Spezialmodelle wie Falcon-40B-Instruct und Falcon-7B-Instruct, die auf bestimmte Aufgaben zugeschnitten sind.

Das Training der Falcon-40B war ein umfangreicher Prozess. Das Modell wurde auf dem RefinedWeb-Datensatz trainiert, einem riesigen englischen Webdatensatz, der von TII erstellt wurde. Dieser Datensatz wurde auf der Grundlage von CommonCrawl erstellt und einer strengen Filterung unterzogen, um die Qualität sicherzustellen. Nachdem das Modell vorbereitet war, wurde es anhand mehrerer Open-Source-Benchmarks validiert, darunter EAI Harness, HELM und BigBench.

Überblick über die wichtigsten Funktionen von Falcon LLM:

  • Umfangreiche Parameter: Falcon-40B ist mit 40 Milliarden Parametern ausgestattet und gewährleistet so umfassendes Lernen und Leistung.
  • Autoregressives Nur-Decoder-Modell: Diese Architektur ermöglicht es Falcon, ähnlich dem GPT-Modell nachfolgende Token auf der Grundlage vorhergehender Token vorherzusagen.
  • Überlegene Leistung: Falcon übertrifft GPT-3 und nutzt dabei nur 75 % des Trainingsrechenbudgets.
  • Hochwertige Datenpipeline: Die Datenpipeline von TII gewährleistet die Extraktion hochwertiger Inhalte aus dem Web, die für das Training des Modells von entscheidender Bedeutung sind.
  • Verschiedene Modelle: Neben Falcon-40B bietet TII auch Falcon-7B und Spezialmodelle wie Falcon-40B-Instruct und Falcon-7B-Instruct an.
  • Open-Source-Verfügbarkeit: Falcon LLM ist Open-Source und fördert die Zugänglichkeit und Inklusivität im KI-Bereich.

5. Vicuna-13B

Führen Sie Vicuna-13B auf Ihrem lokalen Computer aus 🤯 | Tutorial (GPU)

LMSYS ORG hat mit der Einführung von Vicuna-13B einen bedeutenden Schritt im Bereich der Open-Source-LLMs gesetzt. Dieser Open-Source-Chatbot wurde sorgfältig trainiert, indem LLaMA auf von ShareGPT stammende, von Benutzern geteilte Konversationen abgestimmt wurde. Vorläufige Bewertungen, bei denen GPT-4 als Richter fungierte, zeigen, dass Vicuna-13B mehr als 90 % der Qualität renommierter Modelle wie OpenAI ChatGPT und Google Bard erreicht.

Beeindruckend ist, dass Vicuna-13B in über 90 % der Fälle andere namhafte Modelle wie LLaMA und Stanford Alpaca übertrifft. Der gesamte Trainingsprozess für Vicuna-13B wurde mit Kosten von etwa 300 US-Dollar durchgeführt. Für diejenigen, die seine Fähigkeiten erkunden möchten, wurden der Code, die Gewichte und eine Online-Demo für nichtkommerzielle Zwecke öffentlich zugänglich gemacht.

Das Vicuna-13B-Modell wurde mit 70 von Benutzern geteilten ChatGPT-Konversationen verfeinert, sodass detailliertere und besser strukturierte Antworten generiert werden können. Die Qualität dieser Antworten ist vergleichbar mit ChatGPT. Allerdings ist die Bewertung von Chatbots ein komplexes Unterfangen. Mit den Fortschritten in GPT-4 wächst die Neugier hinsichtlich seines Potenzials, als automatisierter Bewertungsrahmen für die Benchmark-Generierung und Leistungsbewertungen zu dienen. Erste Ergebnisse deuten darauf hin, dass GPT-4 beim Vergleich von Chatbot-Antworten konsistente Rankings und detaillierte Bewertungen liefern kann. Vorläufige Auswertungen auf Basis von GPT-4 zeigen, dass Vicuna eine Leistungsfähigkeit von 90 % von Modellen wie Bard/ChatGPT erreicht.

Übersicht über die Hauptmerkmale von Vicuna-13B:

  • Open-Source-Natur: Vicuna-13B ist öffentlich zugänglich und fördert so Transparenz und Einbindung der Gemeinschaft.
  • Umfangreiche Trainingsdaten: Das Modell wurde anhand von 70 von Benutzern geteilten Gesprächen trainiert, um ein umfassendes Verständnis verschiedener Interaktionen zu gewährleisten.
  • Wettbewerbsleistung: Die Leistung von Vicuna-13B liegt auf Augenhöhe mit Branchenführern wie ChatGPT und Google Bard.
  • Kostengünstige Schulung: Der gesamte Trainingsprozess für Vicuna-13B wurde zu geringen Kosten von rund 300 US-Dollar durchgeführt.
  • Feinabstimmung bei LLaMA: Das Modell wurde auf LLaMA verfeinert, um eine verbesserte Leistung und Antwortqualität zu gewährleisten.
  • Online-Demo-Verfügbarkeit: Benutzern steht eine interaktive Online-Demo zur Verfügung, mit der sie die Fähigkeiten von Vicuna-13B testen und erleben können.

Der wachsende Bereich großer Sprachmodelle

Der Bereich der großen Sprachmodelle ist riesig und wächst ständig, wobei jedes neue Modell die Grenzen des Möglichen verschiebt. Der Open-Source-Charakter der in diesem Blog diskutierten LLMs zeigt nicht nur den kollaborativen Geist der KI-Community, sondern ebnet auch den Weg für zukünftige Innovationen.

Diese Modelle, von den beeindruckenden Chatbot-Fähigkeiten von Vicuna bis hin zu den überlegenen Leistungsmetriken von Falcon, stellen den Höhepunkt der aktuellen LLM-Technologie dar. Da wir weiterhin rasante Fortschritte in diesem Bereich beobachten, ist es klar, dass Open-Source-Modelle eine entscheidende Rolle bei der Gestaltung der Zukunft der KI spielen werden.

Egal, ob Sie ein erfahrener Forscher, ein angehender KI-Enthusiast oder jemand sind, der neugierig auf das Potenzial dieser Modelle ist, es gibt keinen besseren Zeitpunkt, einzutauchen und die enormen Möglichkeiten zu erkunden, die sie bieten.

Alex McFarland ist ein KI-Journalist und Autor, der sich mit den neuesten Entwicklungen in der künstlichen Intelligenz beschäftigt. Er hat mit zahlreichen KI-Startups und Publikationen weltweit zusammengearbeitet.

Ein Gründungspartner von unite.AI und Mitglied der Forbes Technology Council, Antoine ist ein Futurist der sich leidenschaftlich für die Zukunft von KI und Robotik interessiert.

Er ist auch der Gründer von Wertpapiere.io, eine Website, die sich auf Investitionen in bahnbrechende Technologien konzentriert.