Connect with us

Künstliche Intelligenz

Generative KI: Die Idee hinter CHATGPT, DALL-E, Midjourney und mehr

mm
Generative AI - Midjourney Prompt

Die Welt der Kunst, Kommunikation und wie wir die Realität wahrnehmen, verändert sich rasch. Wenn wir auf die Geschichte der menschlichen Innovation zurückblicken, könnten wir die Erfindung des Rades oder die Entdeckung der Elektrizität als monumentale Sprünge betrachten. Heute findet eine neue Revolution statt – die Kluft zwischen menschlicher Kreativität und maschineller Berechnung zu überbrücken. Das ist Generative KI.

Generative Modelle haben die Grenze zwischen Menschen und Maschinen verwischt. Mit dem Aufkommen von Modellen wie GPT-4, das Transformer-Module verwendet, sind wir näher an die natürliche und kontextreiche Sprachgenerierung herangekommen. Diese Fortschritte haben Anwendungen in der Dokumentenerstellung, Chatbot-Dialogsystemen und sogar der synthetischen Musikkomposition befeuert.

Jüngste Entscheidungen von Big-Tech-Unternehmen unterstreichen ihre Bedeutung. Microsoft stellt bereits seine Cortana-App in diesem Monat ein, um neue Generative-KI-Neuerungen wie Bing Chat zu priorisieren. Apple hat auch einen bedeutenden Teil seines $22,6-Milliarden-Forschungs- und Entwicklungsetats in die generative KI investiert, wie CEO Tim Cook angab.

Ein neues Zeitalter von Modellen: Generative vs. Diskriminative

Die Geschichte der Generativen KI ist nicht nur über ihre Anwendungen, sondern grundlegend über ihre inneren Mechanismen. Im Ökosystem der künstlichen Intelligenz gibt es zwei Modelle: diskriminative und generative.

Diskriminative Modelle sind das, was die meisten Menschen im Alltag erleben. Diese Algorithmen nehmen Eingabedaten, wie Text oder Bilder, und paaren sie mit einem Zieloutput, wie einer Wortübersetzung oder einer medizinischen Diagnose. Sie sind über die Zuordnung und Vorhersage definiert.

Generative Modelle hingegen sind Schöpfer. Sie interpretieren oder vorhersagen nicht nur; sie generieren neue, komplexe Ausgaben aus Vektoren von Zahlen, die oft nicht einmal mit realen Werten in Verbindung stehen.

 

Generative KI-Typen: Text zu Text, Text zu Bild (GPT, DALL-E, Midjourney)

Die Technologien hinter den generativen Modellen

Generative Modelle verdanken ihre Existenz tiefen neuronalen Netzen, komplexen Strukturen, die darauf ausgelegt sind, die Funktionalität des menschlichen Gehirns nachzuahmen. Durch die Erfassung und Verarbeitung vielschichtiger Variationen in den Daten dienen diese Netze als Rückgrat zahlreicher generativer Modelle.

Wie kommen diese generativen Modelle zum Leben? In der Regel werden sie mit tiefen neuronalen Netzen aufgebaut, die optimiert sind, um die vielschichtigen Variationen in den Daten zu erfassen. Ein prominentes Beispiel ist das Generative Adversarial Network (GAN), bei dem zwei neuronale Netze, der Generator und der Diskriminator, miteinander wetteifern und voneinander lernen in einer einzigartigen Lehrer-Schüler-Beziehung. Von Gemälden bis hin zu Stilübertragungen, von Musikkomposition bis hin zu Spielzügen, entwickeln sich diese Modelle auf Weise, die früher unvorstellbar waren.

Dies hört nicht bei GANs auf. Variational Autoencoder (VAE) sind ein weiterer wichtiger Akteur im Feld der generativen Modelle. VAEs zeichnen sich durch ihre Fähigkeit aus, photorealistische Bilder aus scheinbar zufälligen Zahlen zu erstellen. Wie? Durch die Verarbeitung dieser Zahlen durch einen latenten Vektor entsteht Kunst, die die Komplexität der menschlichen Ästhetik widerspiegelt.

Generative KI-Typen: Text zu Text, Text zu Bild

Transformer & LLM

Das Paper „Attention Is All You Need“ von Google Brain markierte einen Wendepunkt in der Art und Weise, wie wir über Textmodellierung nachdenken. Anstatt komplexer und sequenzieller Architekturen wie rekurrenten neuronalen Netzen (RNNs) oder Convolutional Neural Networks (CNNs) führte das Transformer-Modell das Konzept der Aufmerksamkeit ein, das im Wesentlichen bedeutet, je nach Kontext unterschiedliche Teile des Eingabetextes zu fokussieren. Einer der Hauptvorteile davon war die einfache Parallelisierung. Im Gegensatz zu RNNs, die Text sequenziell verarbeiten und somit schwerer zu skalieren sind, können Transformer-Modelle Teile des Textes gleichzeitig verarbeiten, was das Training auf großen Datensätzen schneller und effizienter macht.

Transformer-Modell Architektur

In einem langen Text ist nicht jedes Wort oder jede Sentence, die Sie lesen, von gleicher Bedeutung. Einige Teile verlangen aufgrund des Kontexts mehr Aufmerksamkeit. Diese Fähigkeit, den Fokus basierend auf Relevanz zu verschieben, ist es, was der Aufmerksamkeitsmechanismus nachahmt.

Um dies zu verstehen, denken Sie an einen Satz: “Unite AI veröffentlicht KI- und Robotik-Nachrichten.” Jetzt erfordert die Vorhersage des nächsten Wortes ein Verständnis dessen, was im vorherigen Kontext am wichtigsten ist. Der Begriff ‘Robotik’ könnte nahelegen, dass das nächste Wort mit einer bestimmten Entwicklung oder einem bestimmten Ereignis im Bereich der Robotik zusammenhängt, während ‘veröffentlichen’ darauf hindeuten könnte, dass der folgende Kontext sich mit einer jüngsten Veröffentlichung oder einem bestimmten Artikel beschäftigt.

Selbst-Aufmerksamkeitsmechanismus-Erklärung auf einem Demo-Satz
Selbst-Aufmerksamkeits-Illustration

Aufmerksamkeitsmechanismen in Transformern sind darauf ausgelegt, diese selektive Konzentration zu erreichen. Sie messen die Bedeutung verschiedener Teile des Eingabetextes und entscheiden, wo sie “hinschauen”, wenn sie eine Antwort generieren. Dies ist ein Abschied von älteren Architekturen wie RNNs, die versuchten, die Essenz des gesamten Eingabetextes in einen einzigen “Zustand” oder “Speicher” zu pressen.

Die Funktionsweise der Aufmerksamkeit kann mit einem Schlüssel-Wert-Retrieval-System verglichen werden. Beim Versuch, das nächste Wort in einem Satz vorherzusagen, bietet jedes vorhergehende Wort einen “Schlüssel”, der seine potenzielle Relevanz nahelegt, und basierend darauf, wie gut diese Schlüssel mit dem aktuellen Kontext (oder der Abfrage) übereinstimmen, tragen sie einen “Wert” oder ein Gewicht zur Vorhersage bei.

Diese fortschrittlichen KI-Tiefenlernmodelle haben sich nahtlos in verschiedene Anwendungen integriert, von Googles Suchmaschinen-Verbesserungen mit BERT bis hin zu GitHub’s Copilot, der die Fähigkeit von Large Language Models (LLMs) nutzt, um einfache Code-Snippets in voll funktionsfähige Quellcodes umzuwandeln.

Large Language Modelle (LLMs) wie GPT-4, Bard und LLaMA sind kolossale Konstrukte, die darauf ausgelegt sind, menschliche Sprache, Code und mehr zu entschlüsseln und zu generieren. Ihre immense Größe, die von Milliarden bis hin zu Billionen von Parametern reicht, ist eines ihrer definierenden Merkmale. Diese LLMs werden mit großen Mengen an Textdaten gefüttert, was es ihnen ermöglicht, die Feinheiten der menschlichen Sprache zu erfassen. Eine auffallende Eigenschaft dieser Modelle ist ihre Fähigkeit zum “Few-Shot”-Lernen. Im Gegensatz zu herkömmlichen Modellen, die große Mengen an spezifischen Trainingsdaten benötigen, können LLMs aus sehr begrenzten Beispielen (oder “Schüssen”) generalisieren.

Zustand von Large Language Modellen (LLMs) per Mitte 2023

Modellname Entwickler Parameter Verfügbarkeit und Zugang Bemerkenswerte Funktionen & Bemerkungen
GPT-4 OpenAI 1,5 Billionen Nicht Open Source, API-Zugang nur Beeindruckende Leistung bei verschiedenen Aufgaben, kann Bilder und Text verarbeiten, maximale Eingabelänge 32.768 Token
GPT-3 OpenAI 175 Milliarden Nicht Open Source, API-Zugang nur Hat Few-Shot- und Zero-Shot-Lernen-Fähigkeiten demonstriert. Führt Textvervollständigung in natürlicher Sprache durch.
BLOOM BigScience 176 Milliarden Herunterladbares Modell, gehosteter API verfügbar Mehrsprachiges LLM, von globaler Zusammenarbeit entwickelt. Unterstützt 13 Programmiersprachen.
LaMDA Google 173 Milliarden Nicht Open Source, keine API oder Download Wurde auf Dialoge trainiert, kann über fast alles lernen, über das man sprechen kann.
MT-NLG Nvidia/Microsoft 530 Milliarden API-Zugang nach Antrag Nutzt transformerbasierte Megatron-Architektur für verschiedene NLP-Aufgaben.
LLaMA Meta AI 7M bis 65M) Herunterladbar nach Antrag Soll die KI demokratisieren, indem sie Zugang für Forschung, Regierung und Akademie bietet.

Wie werden LLMs verwendet?

LLMs können auf verschiedene Weise eingesetzt werden, darunter:

  1. Direkte Nutzung: Einfache Nutzung eines vorgefertigten LLMs für Textgenerierung oder -verarbeitung. Zum Beispiel die Verwendung von GPT-4, um einen Blogbeitrag ohne weitere Feinabstimmung zu schreiben.
  2. Feinabstimmung: Anpassen eines vorgefertigten LLMs für eine bestimmte Aufgabe, eine Methode, die als Transfer Learning bekannt ist. Ein Beispiel wäre die Anpassung von T5, um Zusammenfassungen für Dokumente in einer bestimmten Branche zu erstellen.
  3. Informationsabruf: Verwenden von LLMs, wie BERT oder GPT, als Teil größerer Architekturen, um Systeme zu entwickeln, die Informationen abrufen und kategorisieren können.
Generative KI-ChatGPT-Feinabstimmung
ChatGPT-Feinabstimmungsarchitektur

Mehrköpfige Aufmerksamkeit: Warum eine, wenn man viele haben kann?

Es ist jedoch begrenzt, sich auf einen einzigen Aufmerksamkeitsmechanismus zu verlassen. Verschiedene Wörter oder Sequenzen in einem Text können unterschiedliche Arten von Relevanz oder Assoziationen haben. Hier kommt die mehrköpfige Aufmerksamkeit ins Spiel. Anstatt eines Satzes von Aufmerksamkeitsgewichten verwendet die mehrköpfige Aufmerksamkeit mehrere Sätze, was es dem Modell ermöglicht, eine vielfältigere Palette von Beziehungen im Eingabetext zu erfassen. Jeder “Kopf” der Aufmerksamkeit kann sich auf unterschiedliche Teile oder Aspekte des Eingabetextes konzentrieren, und ihr kombiniertes Wissen wird für die endgültige Vorhersage verwendet.

ChatGPT: Das beliebteste Generative-KI-Tool

Beginnend mit der Einführung von GPT im Jahr 2018 wurde das Modell im Wesentlichen auf der Grundlage von 12 Schichten, 12 Aufmerksamkeitsköpfen und 120 Millionen Parametern aufgebaut, hauptsächlich auf einem Datensatz namens BookCorpus trainiert. Dies war ein beeindruckender Anfang, der einen Blick in die Zukunft von Sprachmodellen bot.

GPT-2, das 2019 vorgestellt wurde, bot eine Vierfachsteigerung der Schichten und Aufmerksamkeitsköpfe. Bedeutsam war die Steigerung der Parameterzahl auf 1,5 Milliarden. Diese verbesserte Version wurde aus einem Datensatz namens WebText abgeleitet, der mit 40 GB Text aus verschiedenen Reddit-Links angereichert war.

GPT-3, das im Mai 2020 veröffentlicht wurde, hatte 96 Schichten, 96 Aufmerksamkeitsköpfe und eine massive Parameterzahl von 175 Milliarden. Was GPT-3 von anderen abhob, war seine vielfältige Trainingsdaten, die CommonCrawl, WebText, englische Wikipedia, Buchkorpora und andere Quellen umfassten, die sich auf insgesamt 570 GB summierten.

Die Feinheiten der Funktionsweise von ChatGPT bleiben ein streng gehütetes Geheimnis. Es ist jedoch bekannt, dass ein Prozess namens “Reinforcement Learning from Human Feedback” (RLHF) von entscheidender Bedeutung ist. Ursprünglich aus einem früheren ChatGPT-Projekt stammend, war diese Technik instrumental bei der Feinabstimmung des GPT-3.5-Modells, um es besser an geschriebene Anweisungen anzupassen.

Ich habe die letzten fünf Jahre damit verbracht, mich in die faszinierende Welt des Machine Learning und Deep Learning zu vertiefen. Meine Leidenschaft und mein Fachwissen haben mich dazu geführt, an über 50 verschiedenen Software-Entwicklungsprojekten mitzuwirken, mit einem besonderen Fokus auf KI/ML. Meine anhaltende Neugier hat mich auch zum Natural Language Processing hingezogen, ein Feld, das ich weiter erforschen möchte.