Vernetzen Sie sich mit uns
Array ( [ID] => 1 [user_firstname] => Antoine [user_lastname] => Tardif [Spitzname] => Antoine Tardif [user_nicename] => admin [display_name] => Antoine Tardif [user_email] => [E-Mail geschützt] 
    [user_url] => [user_registered] => 2018 08:27:14 [user_description] => Ein Gründungspartner von unite.AI und Mitglied der Forbes Technology Council, Antoine ist ein Futurist der sich leidenschaftlich für die Zukunft von KI und Robotik interessiert. Er ist auch der Gründer von Wertpapiere.io, eine Website, die sich auf Investitionen in bahnbrechende Technologien konzentriert. [user_avatar] => mm
)

Best Of

Die 5 besten Open Source LLMs (Juli 2024)

Aktualisiert on
Open-Source-LLMs

Large Language Models (LLMs) haben sich zu einem Eckpfeiler der heutigen KI entwickelt, treiben Innovationen voran und verändern die Art und Weise, wie wir mit Technologie interagieren.

Da diese Modelle immer ausgefeilter werden, liegt der Schwerpunkt zunehmend auf der Demokratisierung des Zugangs zu ihnen. Insbesondere Open-Source-Modelle spielen bei dieser Demokratisierung eine zentrale Rolle und bieten Forschern, Entwicklern und Enthusiasten gleichermaßen die Möglichkeit, tief in ihre Feinheiten einzutauchen, sie für bestimmte Aufgaben zu verfeinern oder sogar auf ihren Grundlagen aufzubauen.

In diesem Blog werden wir einige der besten Open-Source-LLMs erkunden, die in der KI-Community für Aufsehen sorgen. Jeder bringt seine einzigartigen Stärken und Fähigkeiten mit.

1. Lama 3

Metas LLAMA 3 hat einfach alle verblüfft! (Open-Source-GPT-4)

Metas Llama 3 stellt einen monumentalen Fortschritt in der Reihe ihrer Open-Source-Modelle für große Sprachen dar. Als Nachfolger des bahnbrechenden Llama 2, das 2023 veröffentlicht wurde, setzt Llama 3 einen neuen Stand der Technik für offen verfügbare Modelle auf den Parameterskalen 8B und 70B. Dies ist nicht nur ein inkrementelles Update; Es handelt sich um einen transformativen Fortschritt, der es Entwicklern ermöglicht, hochmoderne Anwendungen in natürlicher Sprache zu entwickeln und gleichzeitig offene Forschung und Innovation im Bereich KI voranzutreiben.

Die unübertroffene Leistung von Llama 3 ist auf erhebliche Verbesserungen im Vortrainingsprozess und in der Architektur zurückzuführen. Das Modell wurde mit einem riesigen Datensatz von über 15 Billionen Token aus öffentlich zugänglichen Quellen trainiert, was erstaunliche siebenmal mehr Daten als bei Llama 7 bedeutet. Dazu gehören viermal mehr Codedaten, um die Codierungsfunktionen von Llama 2 zu steigern, sowie eine erhebliche Abdeckung von über 4 Sprachen, um den Grundstein für zukünftige mehrsprachige Versionen zu legen. Zur Kuratierung dieser Daten wurde eine umfassende Filterung eingesetzt, um sicherzustellen, dass Llama 3 nur aus Quellen höchster Qualität lernte.

Die Verbesserungen von Llama 3 gehen jedoch über die bloße Erweiterung der Daten hinaus. Modernste Optimierungen der Architektur und des Trainingsprozesses des Modells haben seine Argumentationsfähigkeiten, Codegenerierung, Befehlsfolge und Antwortvielfalt erheblich verbessert. Ein verbesserter Tokenizer macht Llama 3 bis zu 15 % effizienter als sein Vorgänger. Durch die gruppierte Abfrageaufmerksamkeit kann das 8B-Modell die Inferenzparität mit dem vorherigen 7B-Modell aufrechterhalten.

Quelle: Meta

Das Endergebnis ist ein Sprachmodell, das sich für eine Vielzahl komplexer Sprachaufgaben eignet:

  • Kreative Generation: Llama 3 kann äußerst kohärente und kreative Texte in Form von Geschichten, Skripten, Musikstücken, Gedichten und mehr generieren.
  • Kodierung und Argumentation: Dank seiner verbesserten Code-Trainingsdaten verfügt Llama 3 über unglaublich starke Programmier- und logische Denkfähigkeiten zur Bewältigung komplizierter Probleme.
  • Frage beantworten: Durch die Verknüpfung von Informationen aus seiner breiten Wissensdatenbank kann Llama 3 fundierte Antworten auf Fragen zu verschiedenen Themen geben.
  • Zusammenfassung: Llama 3 ist geschickt darin, prägnante und dennoch umfassende Zusammenfassungen langer Artikel und sachlicher Inhalte zu erstellen.
  • Anweisungen folgen: Eine der beeindruckendsten Leistungen von Llama 3 ist seine Fähigkeit, komplexe mehrstufige Anweisungen für offene Aufgaben genau zu befolgen.

Die Zukunft der Llama-Serie ist rosig. Meta entwickelt bereits Versionen von Llama 3 mit über 400 Milliarden Parametern, die nicht nur größer, sondern auch mehrsprachig und multimodal sind. Erste Tests zeigen, dass diese ultragroßen Modelle vielversprechende Ergebnisse liefern und mit den besten proprietären Systemen mithalten können.

Quelle: Meta

Besuchen Sie Lama 3 →

2. Blühen

Open-Source-Bloom-KI-Einführung

Im Jahr 2022 wurde das BLOOM-Projekt nach einer einjährigen Zusammenarbeit unter der Leitung des KI-Unternehmens Hugging Face mit über 1,000 freiwilligen Forschern aus mehr als 70 Ländern vorgestellt. BLOOM (BigScience Large Open-Science Open-Access Multilingual Language Model) ist ein großes Sprachmodell mit 176 Milliarden Parametern, das für die autoregressive Textgenerierung entwickelt wurde und in der Lage ist, eine gegebene Textaufforderung zu erweitern, um kohärente Geschichten, Skripte, Gedichte, Artikel und mehr zu generieren.

Was BLOOM auszeichnet, ist sein Open-Access-Charakter – im Gegensatz zu den meisten anderen großen Sprachmodellen, die von Technologieunternehmen entwickelt werden, sind Modell, Quellcode und Trainingsdaten alle unter offenen Lizenzen frei verfügbar. Diese Offenheit lädt zur kontinuierlichen Prüfung, Nutzung und Verbesserung des Modells durch die breitere KI-Community ein.

BLOOM verfügt über beeindruckende Mehrsprachigkeitsfunktionen, da es auf einem riesigen 1.6 TB großen Datensatz (dem ROOTS-Korpus) trainiert wurde, der 46 natürliche Sprachen und 13 Programmiersprachen umfasst, wobei über 30 % der Daten Englisch sind. Für viele Sprachen wie Spanisch und Arabisch ist BLOOM das erste Modell dieser Größe.

Das Modell wurde über einen Zeitraum von 3.5 Monaten auf dem Supercomputer Jean Zay in Frankreich mit 384 NVIDIA A100-GPUs trainiert, ermöglicht durch einen Rechenzuschuss der französischen Regierung – was über 5 Millionen Rechenstunden entspricht. Basierend auf der GPT-Architektur mit Modifikationen erreicht BLOOM eine wettbewerbsfähige Leistung bei Benchmarks.

Hauptstärken von BLOOM:

  • Offener Zugang: Die Modell-, Code- und Trainingsdaten von BLOOM sind frei verfügbar, was den Zugang zu leistungsstarken Sprachmodellen demokratisiert und offene Forschung ermöglicht.
  • Mehrsprachigkeit: BLOOM basiert auf Daten aus 46 natürlichen Sprachen und 13 Programmiersprachen und verfügt über umfassende mehrsprachige Fähigkeiten.
  • Vielseitige Sprachkenntnisse: Von der Textgenerierung über die Beantwortung von Fragen bis hin zur Zusammenfassung, Übersetzung und Codegenerierung zeichnet sich BLOOM bei einer Vielzahl von Sprachaufgaben aus.
  • Verantwortungsvolle KI-Entwicklung: BLOOM wurde mit Fokus auf verantwortungsvolle KI-Praktiken entwickelt und wird unter einer Lizenz veröffentlicht, die böswillige Anwendungsfälle verbietet.
  • Einfache Bereitstellung: Entwickler können über die Hugging Face Transformers-Bibliothek auf BLOOM zugreifen und es mit Accelerate bereitstellen.

Für die Zukunft plant das BigScience-Team, BLOOM auf weitere Sprachen zu erweitern, das Modell zu komprimieren und es als Ausgangspunkt für fortschrittlichere Architekturen zu verwenden. BLOOM stellt einen großen Schritt dar, große Sprachmodelle transparenter und für alle zugänglicher zu machen.

Besuchen Sie Bloom →

3. MPT-7B

MPT-7B – Das erste kommerziell nutzbare, vollständig trainierte Modell im LLaMA-Stil

MosaicML Foundations hat mit der Einführung von MPT-7B, ihrem neuesten Open-Source-LLM, einen bedeutenden Beitrag zu diesem Bereich geleistet. MPT-7B, ein Akronym für „MosaicML Pretrained Transformer“, ist ein reines Decoder-Transformermodell im GPT-Stil. Dieses Modell verfügt über mehrere Verbesserungen, darunter leistungsoptimierte Layer-Implementierungen und Architekturänderungen, die eine größere Trainingsstabilität gewährleisten.

Ein herausragendes Merkmal von MPT-7B ist das Training anhand eines umfangreichen Datensatzes, der 1 Billion Text- und Code-Tokens umfasst. Dieses strenge Training wurde über einen Zeitraum von 9.5 Tagen auf der MosaikML-Plattform durchgeführt.

Der Open-Source-Charakter von MPT-7B macht es zu einem wertvollen Werkzeug für kommerzielle Anwendungen. Es birgt das Potenzial, prädiktive Analysen und die Entscheidungsprozesse von Unternehmen und Organisationen erheblich zu beeinflussen.

Zusätzlich zum Basismodell veröffentlicht MosaicML Foundations auch spezielle Modelle, die auf bestimmte Aufgaben zugeschnitten sind, wie z. B. MPT-7B-Instruct für die Befolgung von Anweisungen in Kurzform, MPT-7B-Chat für die Dialoggenerierung und MPT-7B-StoryWriter-65k+ für die Erstellung langer Geschichten.

Der Entwicklungsweg von MPT-7B war umfassend, wobei das MosaikML-Team alle Phasen von der Datenvorbereitung bis zur Bereitstellung innerhalb weniger Wochen bewältigte. Die Daten stammten aus verschiedenen Repositories und das Team nutzte Tools wie GPT-NeoX von EleutherAI und den 20B-Tokenizer, um einen abwechslungsreichen und umfassenden Trainingsmix sicherzustellen.

Übersicht über die wichtigsten Funktionen des MPT-7B:

  • Kommerzielle Lizenzierung: MPT-7B ist für die kommerzielle Nutzung lizenziert und daher ein wertvolles Gut für Unternehmen.
  • Umfangreiche Trainingsdaten: Das Modell verfügt über ein Training mit einem riesigen Datensatz von 1 Billion Token.
  • Handhabung langer Eingaben: MPT-7B ist darauf ausgelegt, extrem lange Eingaben kompromisslos zu verarbeiten.
  • Geschwindigkeit und Effizienz: Das Modell ist für schnelles Training und Inferenz optimiert und gewährleistet so zeitnahe Ergebnisse.
  • Open-Source-Code: MPT-7B wird mit effizientem Open-Source-Trainingscode geliefert, der Transparenz und Benutzerfreundlichkeit fördert.
  • Komparative Exzellenz: MPT-7B hat gegenüber anderen Open-Source-Modellen der 7B-20B-Reihe seine Überlegenheit bewiesen und seine Qualität entspricht der von LLaMA-7B.

Besuchen Sie MPT-7B →

4. Falcon 2

Stellen Sie FALCON-180B sofort bereit! Das NEUE Nr. 1 Open-Source-KI-Modell

*Video über Falcon 180B, den Vorgänger von Falcon 2

Falcon 2 ist die neueste Generation von Open-Source-Großsprachenmodellen des Technology Innovation Institute (TII) in Abu Dhabi und baut auf dem Erfolg ihrer früheren Modelle Falcon 7B, 40B und 180B auf, die 2023 auf den Markt kamen. Die Falcon 2-Serie umfasst derzeit :

  • Falcon 2 11B: Ein reines Kausal-Decoder-Modell mit 11 Milliarden Parametern, das Metas LLaMA 3 8B übertrifft und bei Standard-Benchmarks auf Augenhöhe mit Googles Gemma 7B-Modell abschneidet, wie durch die Bestenliste von Hugging Face bestätigt.
  • Falcon 2 11B VLM: Eine bahnbrechende multimodale Version von Falcon 2 11B mit Vision-to-Language-Funktionen, was es zu einem der wenigen Open-Source-Modelle macht, das diese Funktionalität bietet.

Quelle: TII

Falcon 2-Modelle sind vollständig Open Source unter der freizügigen TII Falcon License 2.0, basierend auf Apache 2.0, aber mit einer akzeptablen Nutzungsrichtlinie zur Förderung einer verantwortungsvollen KI-Entwicklung. Dies ermöglicht die kostenlose Nutzung der Modelle für die Forschung und die meisten kommerziellen Anwendungen.

Die Falcon 2-Modelle wurden mit über 5 Billionen Token aus dem erweiterten RefinedWeb-Datensatz trainiert, der eine vielfältige Mischung aus hochwertigen Webdaten, Büchern, technischen Texten, Code und Gesprächen umfasst. Um die besten Daten zu extrahieren, wurden umfangreiche Filter- und Deduplizierungstechniken eingesetzt. Während der Schwerpunkt immer noch hauptsächlich auf Englisch liegt, deckt ein Teil der Trainingsdaten auch andere Sprachen wie Deutsch, Spanisch, Französisch und Italienisch ab und bildet so die Grundlage für zukünftige mehrsprachige Modelle.

Falcon 2 nutzt eine optimierte Nur-Decoder-Transformator-Architektur, die im Vergleich zu anderen offenen Modellen eine starke Leistung bei kleinerem Maßstab ermöglicht. TII plant, die Effizienz durch den Einsatz von Techniken wie der Expertenmischung in kommenden Versionen weiter zu steigern.

Was die reinen Fähigkeiten angeht, zeichnet sich Falcon 2 11B bei einer Vielzahl natürlicher Sprachaufgaben aus, darunter:

  • Textgenerierung kohärenter Langforminhalte wie Geschichten und Artikel
  • Fachkundige Beantwortung von Fragen durch Verknüpfung von Informationen zu verschiedenen Themen
  • Hochwertige Zusammenfassung langer Artikel oder sachlicher Inhalte
  • Genaue Befolgung der Anweisungen bei Feinabstimmung
  • Solide Leistung bei Kodierungs- und Argumentations-Benchmarks

Die Falcon 2 11B VLM-Variante bietet die einzigartige Fähigkeit, Bilder zu verstehen und Text basierend auf visuellen und sprachlichen Eingaben zu generieren. Dies ermöglicht leistungsstarke multimodale Anwendungsfälle wie visuelle Beantwortung von Fragen, Bildunterschriften und Vision-to-Language-Argumentation.

Mit Blick auf die Zukunft hat TII Pläne bekannt gegeben, die Falcon 2-Serie um größere Modellgrößen zu erweitern und dabei den Fokus weiterhin auf Effizienz und offenen Zugang zu legen. Techniken wie die Mischung von Experten werden genutzt, um die Fähigkeiten zu erweitern, ohne den Rechenaufwand drastisch zu erhöhen.

Besuchen Sie Falcon 2 →

5. Vicuna-13B

Führen Sie Vicuna-13B auf Ihrem lokalen Computer aus 🤯 | Tutorial (GPU)

 

LMSYS ORG hat mit Vicuna-13B einen bedeutenden Akzent im Bereich der Open-Source-LLMs gesetzt. Dieser Open-Source-Chatbot wurde durch die Feinabstimmung von LLaMA anhand von rund 70 von Benutzern geteilten Konversationen, die von ShareGPT.com über öffentliche APIs stammen, sorgfältig trainiert. Um die Datenqualität sicherzustellen, wurden die Konversationen von HTML zurück in Markdown konvertiert und gefiltert, um unangemessene oder minderwertige Beispiele zu entfernen. Längere Gespräche wurden außerdem in kleinere Segmente unterteilt, die der maximalen Kontextlänge des Modells entsprachen.

Vorläufige Bewertungen, bei denen GPT-4 als Juror fungierte, ergaben, dass Vicuna-13B mehr als 90 % der Qualität renommierter Modelle wie OpenAI ChatGPT und Google Bard erreichte. Beeindruckenderweise übertraf Vicuna-13B damals andere namhafte Modelle wie LLaMA und Stanford Alpaca in über 90 % der Fälle. Der gesamte Trainingsprozess für Vicuna-13B kostete etwa 300 US-Dollar und nutzte Techniken wie Spot-Instanzen, Gradient Checkpointing und Flash Attention, um die Speichernutzung zu optimieren und die Kosten zu senken. Für diejenigen, die seine Fähigkeiten erkunden möchten, wurden der Code, die Gewichte und eine Online-Demo für nichtkommerzielle Zwecke öffentlich zugänglich gemacht.

Das Trainingsrezept für Vicuna basiert auf dem Alpaca-Modell von Stanford und weist mehrere wichtige Verbesserungen auf:

  • Gespräche mit mehreren Runden: Der Trainingsverlust wird angepasst, um Konversationen mit mehreren Runden zu berücksichtigen, wobei der Feinabstimmungsverlust ausschließlich anhand der Ausgabe des Chatbots berechnet wird.
  • Speicheroptimierungen: Die maximale Kontextlänge wird von 512 in Alpaca auf 2048 in Vicuna erhöht, was das Verständnis längerer Kontexte auf Kosten höherer GPU-Speicheranforderungen ermöglicht. Dies wird durch Gradienten-Checkpointing und Flash-Aufmerksamkeit angegangen.
  • Kostenreduzierung: Ein 40-mal größerer Datensatz und eine 4-mal größere Sequenzlänge stellten Herausforderungen hinsichtlich der Schulungskosten dar, aber der Einsatz verwalteter Spot-Instanzen über SkyPilot reduzierte die Kosten erheblich – von 82 $ auf 140 $ für das 7B-Modell und von 135 $ auf 300 $ für das 13B-Modell.

Um Vicuna zu bedienen, wurde ein verteiltes Serversystem entwickelt, das in der Lage ist, mehrere Modelle mit Mitarbeitern zu verwalten, die flexibel über lokale Cluster oder die Cloud angeschlossen werden können. Durch die Verwendung fehlertoleranter Controller und verwalteter Spot-Instanzen kann dieses System gut mit günstigeren Spot-Instanzen aus mehreren Clouds zusammenarbeiten, um die Bereitstellungskosten zu minimieren. Während es sich derzeit um eine einfache Implementierung handelt, wird daran gearbeitet, die neuesten Forschungsergebnisse zu integrieren, um die Bereitstellungsinfrastruktur weiter zu verbessern.

Hauptmerkmale von Vicuna-13B:

  • Open-Source-Natur: Vicuna-13B ist öffentlich zugänglich und fördert so Transparenz und Einbindung der Gemeinschaft.
  • Umfangreiche Trainingsdaten: Das Modell wurde anhand von 70 von Benutzern geteilten Gesprächen trainiert, um ein umfassendes Verständnis verschiedener Interaktionen zu gewährleisten.
  • Kostengünstige Schulung: Techniken wie verwaltete Spot-Instanzen, Gradient Checkpointing und Flash Attention ermöglichten ein kostengünstiges Training für etwa 300 US-Dollar für das 13B-Modell.
  • Verbessertes Trainingsrezept: Vicuna baut auf dem Alpaca-Rezept auf und bietet Verbesserungen für die Konversationsabwicklung in mehreren Runden, die Speicheroptimierung und die Kostenreduzierung.
  • Verteilte Bereitstellungsinfrastruktur: Um Vicuna öffentlich zugänglich zu machen, wurde ein flexibles und kostengünstiges verteiltes Serviersystem entwickelt.
  • Online-Demo-Verfügbarkeit: Benutzern steht eine interaktive Online-Demo zur Verfügung, mit der sie die Fähigkeiten von Vicuna-13B testen und erleben können.

Es ist wichtig zu beachten, dass die Analyse auf vorläufigen nichtwissenschaftlichen Auswertungen mit GPT-4 basierte. Es bedarf noch einer strengen Evaluierung.

Besuchen Sie Vicuna-13B →

Der wachsende Bereich großer Sprachmodelle

Große Sprachmodelle sind ein sich schnell weiterentwickelndes Feld, wobei neue Modelle ständig die Grenzen von Leistung und Fähigkeiten verschieben. Der Open-Source-Charakter der in diesem Artikel diskutierten LLMs zeigt den kollaborativen Geist innerhalb der KI-Community und legt den Grundstein für zukünftige Innovationen.

Diese Modelle repräsentieren den aktuellen Stand der LLM-Technologie. Open-Source-Modelle werden zweifellos eine wichtige Rolle dabei spielen, weitere Fortschritte in diesem Bereich voranzutreiben.

Für Forscher, KI-Enthusiasten und diejenigen, die sich für die Erforschung der potenziellen Anwendungen dieser Modelle interessieren, ist jetzt ein günstiger Zeitpunkt, sich mit den umfangreichen Funktionen zu befassen und sie zu nutzen, die hochmoderne Open-Source-LLMs bieten.

Alex McFarland ist ein KI-Journalist und Autor, der sich mit den neuesten Entwicklungen in der künstlichen Intelligenz beschäftigt. Er hat mit zahlreichen KI-Startups und Publikationen weltweit zusammengearbeitet.

Ein Gründungspartner von unite.AI und Mitglied der Forbes Technology Council, Antoine ist ein Futurist der sich leidenschaftlich für die Zukunft von KI und Robotik interessiert.

Er ist auch der Gründer von Wertpapiere.io, eine Website, die sich auf Investitionen in bahnbrechende Technologien konzentriert.