Künstliche Intelligenz
Generative KI: Die Idee hinter CHATGPT, DALL-E, Midjourney und mehr

Die Welt der Kunst, Kommunikation und unsere Wahrnehmung der Realität verändert sich rasant. Wenn wir auf die Geschichte der menschlichen Innovation zurückblicken, könnten wir die Erfindung des Rades oder die Entdeckung der Elektrizität als monumentale Sprünge betrachten. Heute findet eine neue Revolution statt – sie überbrückt die Kluft zwischen menschlicher Kreativität und maschineller Berechnung. Das ist Generative KI.
Generative Modelle haben die Grenze zwischen Mensch und Maschine verwischt. Mit dem Aufkommen von Modellen wie GPT-4, das Transformer-Module verwendet, sind wir näher an die natürliche und kontextreiche Sprachgenerierung herangekommen. Diese Fortschritte haben Anwendungen in der Dokumenterstellung, Chatbot-Dialogsystemen und sogar der synthetischen Musikkomposition befeuert.
Die jüngsten Entscheidungen der großen Technologieunternehmen unterstreichen ihre Bedeutung. Microsoft stellt bereits seine Cortana-App ein, um neue Generative-KI-Neuerungen wie Bing Chat zu priorisieren. Apple hat auch einen bedeutenden Teil seines $22,6-Milliarden-Forschungs- und -Entwicklungsetats in die generative KI investiert, wie CEO Tim Cook angab.
Ein neues Zeitalter der Modelle: Generative vs. Diskriminative
Die Geschichte der Generative KI ist nicht nur ihre Anwendungen, sondern auch ihre inneren Mechanismen. Im Ökosystem der künstlichen Intelligenz gibt es zwei Modelle: diskriminative und generative.
Diskriminative Modelle sind das, was die meisten Menschen im Alltag erleben. Diese Algorithmen nehmen Eingabedaten wie Text oder Bilder und paaren sie mit einem Zieloutput wie einer Wortübersetzung oder einer medizinischen Diagnose. Sie sind auf Mapping und Vorhersage ausgerichtet.
Generative Modelle hingegen sind Schöpfer. Sie interpretieren oder vorhersagen nicht nur, sondern generieren auch neue, komplexe Ausgaben aus Vektoren von Zahlen, die oft nicht einmal mit realen Werten in Verbindung stehen.
Die Technologien hinter generativen Modellen
Generative Modelle verdanken ihre Existenz tiefen neuronalen Netzen, komplexen Strukturen, die die Funktionalität des menschlichen Gehirns nachahmen. Durch die Erfassung und Verarbeitung vielfältiger Variationen in den Daten dienen diese Netze als Rückgrat zahlreicher generativer Modelle.
Wie entstehen diese generativen Modelle? In der Regel werden sie mit tiefen neuronalen Netzen aufgebaut, die optimiert sind, um die vielfältigen Variationen in den Daten zu erfassen. Ein prominentes Beispiel ist das Generative Adversarial Network (GAN), bei dem zwei neuronale Netze, der Generator und der Diskriminator, miteinander wetteifern und voneinander lernen in einer einzigartigen Lehrer-Schüler-Beziehung. Von Gemälden bis hin zu Stilübertragungen, von Musikkomposition bis hin zu Spielgeneration, entwickeln sich diese Modelle und erweitern sich auf Weise, die zuvor unvorstellbar waren.
Dies hört nicht bei GANs auf. Variational Autoencoder (VAE) sind ein weiterer wichtiger Spieler im Feld der generativen Modelle. VAEs zeichnen sich durch ihre Fähigkeit aus, photorealistische Bilder aus scheinbar zufälligen Zahlen zu erstellen. Wie? Durch die Verarbeitung dieser Zahlen durch einen latenten Vektor entsteht Kunst, die die Komplexität der menschlichen Ästhetik widerspiegelt.
Generative KI-Typen: Text zu Text, Text zu Bild
Transformer und LLM
Der Artikel „Attention Is All You Need“ von Google Brain markierte einen Wendepunkt in der Art, wie wir über Textmodellierung nachdenken. Anstatt komplexer und sequenzieller Architekturen wie rekurrenten neuronalen Netzen (RNN) oder Convolutional Neural Networks (CNN) führte das Transformer-Modell das Konzept der Aufmerksamkeit ein, das im Wesentlichen bedeutet, je nach Kontext auf unterschiedliche Teile des Eingabetextes zu achten. Einer der Hauptvorteile davon war die Leichtigkeit der Parallelisierung. Im Gegensatz zu RNNs, die Text sequenziell verarbeiten und sich daher schwer skalieren lassen, können Transformer Teile des Textes gleichzeitig verarbeiten, was das Training auf großen Datensätzen schneller und effizienter macht.

- Transformer-Modell Architektur
In einem langen Text hat nicht jedes Wort oder jede Phrase, die Sie lesen, die gleiche Bedeutung. Einige Teile erfordern aufgrund des Kontexts mehr Aufmerksamkeit. Diese Fähigkeit, den Fokus basierend auf Relevanz zu verschieben, ist es, was der Aufmerksamkeitsmechanismus nachahmt.
Um dies zu verstehen, denken Sie an einen Satz: “Unite AI veröffentlicht AI- und Robotik-Nachrichten.” Die Vorhersage des nächsten Wortes erfordert ein Verständnis dessen, was im vorherigen Kontext am wichtigsten ist. Der Begriff “Robotik” könnte nahelegen, dass das nächste Wort mit einem bestimmten Fortschritt oder Ereignis im Bereich der Robotik zusammenhängt, während “Veröffentlichen” darauf hindeuten könnte, dass der folgende Kontext sich mit einer jüngsten Veröffentlichung oder einem Artikel beschäftigt.
Die Aufmerksamkeitsmechanismen in Transformern sind darauf ausgelegt, diese selektive Aufmerksamkeit zu erreichen. Sie messen die Bedeutung verschiedener Teile des Eingabetextes und entscheiden, wohin sie “schauen”, wenn sie eine Antwort generieren. Dies ist ein Abweichen von älteren Architekturen wie RNNs, die versuchten, die Essenz des gesamten Eingabetextes in einen einzigen “Zustand” oder “Speicher” zu pressen.
Die Funktionsweise der Aufmerksamkeit kann mit einem Schlüssel-Wert-Retrieval-System verglichen werden. Beim Versuch, das nächste Wort in einem Satz vorherzusagen, bietet jedes vorhergehende Wort einen “Schlüssel”, der seine potenzielle Relevanz nahelegt, und basierend auf wie gut diese Schlüssel mit dem aktuellen Kontext (oder der Abfrage) übereinstimmen, tragen sie einen “Wert” oder ein Gewicht zur Vorhersage bei.
Diese fortschrittlichen KI-Tiefenlernmodelle haben sich nahtlos in verschiedene Anwendungen integriert, von Googles Suchmaschinen-Verbesserungen mit BERT bis hin zu GitHub’s Copilot, der die Fähigkeit von Large Language Models (LLMs) nutzt, um einfache Code-Snippets in voll funktionsfähige Quellcodes umzuwandeln.
Large Language Modelle (LLMs) wie GPT-4, Bard und LLaMA sind kolossale Konstrukte, die darauf ausgelegt sind, menschliche Sprache, Code und mehr zu entschlüsseln und zu generieren. Ihre immense Größe, die von Milliarden bis hin zu Billionen von Parametern reicht, ist eines ihrer definierenden Merkmale. Diese LLMs werden mit großen Mengen an Textdaten gefüttert, was es ihnen ermöglicht, die Feinheiten der menschlichen Sprache zu erfassen. Ein auffallendes Merkmal dieser Modelle ist ihre Fähigkeit zum “Few-Shot”-Lernen. Im Gegensatz zu herkömmlichen Modellen, die große Mengen an spezifischen Trainingsdaten benötigen, können LLMs aus sehr begrenzten Beispielen (oder “Schüssen”) generalisieren.
Zustand von Large Language Modellen (LLMs) per Mitte 2023
| Modellname | Entwickler | Parameter | Verfügbarkeit und Zugriff | Bemerkenswerte Funktionen und Anmerkungen |
| GPT-4 | OpenAI | 1,5 Billionen | Nicht Open Source, API-Zugriff nur | Beeindruckende Leistung bei verschiedenen Aufgaben, kann Bilder und Text verarbeiten, maximale Eingabelänge 32.768 Token |
| GPT-3 | OpenAI | 175 Milliarden | Nicht Open Source, API-Zugriff nur | Hat Few-Shot- und Zero-Shot-Lernen-Fähigkeiten demonstriert. Führt Textvervollständigung in natürlicher Sprache durch. |
| BLOOM | BigScience | 176 Milliarden | Herunterladbares Modell, gehosteter API verfügbar | Multilinguales LLM, das von einer globalen Zusammenarbeit entwickelt wurde. Unterstützt 13 Programmiersprachen. |
| LaMDA | 173 Milliarden | Nicht Open Source, kein API- oder Download-Zugriff | Wurde auf Dialoge trainiert, kann über fast alles lernen, worüber man sprechen kann. | |
| MT-NLG | Nvidia/Microsoft | 530 Milliarden | API-Zugriff nach Antrag | Nutzt transformerbasierte Megatron-Architektur für verschiedene NLP-Aufgaben. |
| LLaMA | Meta AI | 7 Milliarden bis 65 Milliarden | Herunterladbar nach Antrag | Wird entwickelt, um AI zu demokratisieren, indem Zugriff für Forschung, Regierung und Akademie angeboten wird. |
Wie werden LLMs verwendet?
LLMs können auf verschiedene Weise eingesetzt werden, darunter:
- Direkte Nutzung: Einfaches Verwenden eines vorgefertigten LLMs für Textgenerierung oder -verarbeitung. Zum Beispiel das Verwenden von GPT-4, um einen Blog-Beitrag ohne weitere Feinabstimmung zu schreiben.
- Feinabstimmung: Anpassen eines vorgefertigten LLMs für eine bestimmte Aufgabe, eine Methode, die als Transfer-Lernen bekannt ist. Ein Beispiel wäre, T5 für die Generierung von Zusammenfassungen für Dokumente in einer bestimmten Branche anzupassen.
- Informationsabruf: Verwenden von LLMs wie BERT oder GPT als Teil größerer Architekturen, um Systeme zu entwickeln, die Informationen abrufen und kategorisieren können.
Mehrköpfige Aufmerksamkeit: Warum eine, wenn man viele haben kann?
Es ist jedoch begrenzt, sich auf einen einzigen Aufmerksamkeitsmechanismus zu verlassen. Verschiedene Wörter oder Sequenzen in einem Text können unterschiedliche Arten von Relevanz oder Assoziationen haben. Hier kommt die Mehrköpfige Aufmerksamkeit ins Spiel. Anstatt eines Satzes von Aufmerksamkeitsgewichten verwendet die Mehrköpfige Aufmerksamkeit mehrere Sätze, was es dem Modell ermöglicht, eine vielfältigere Palette von Beziehungen im Eingabetext zu erfassen. Jeder Aufmerksamkeits-“Kopf” kann sich auf unterschiedliche Teile oder Aspekte des Eingangs konzentrieren, und ihr kombiniertes Wissen wird für die endgültige Vorhersage verwendet.
ChatGPT: Das beliebteste Generative-KI-Tool
Beginnend mit GPTs Einführung im Jahr 2018 wurde das Modell im Wesentlichen auf der Grundlage von 12 Schichten, 12 Aufmerksamkeitsköpfen und 120 Millionen Parametern aufgebaut, hauptsächlich trainiert auf einem Datensatz namens BookCorpus. Dies war ein beeindruckender Anfang, der einen Blick in die Zukunft von Sprachmodellen bot.
GPT-2, das 2019 vorgestellt wurde, bot eine vierfache Erhöhung der Schichten und Aufmerksamkeitsköpfe. Bedeutend war der Sprung der Parameterzahl auf 1,5 Milliarden. Diese verbesserte Version wurde aus dem WebText-Datensatz trainiert, der mit 40 GB Text aus verschiedenen Reddit-Links angereichert war.
GPT-3, das im Mai 2020 veröffentlicht wurde, hatte 96 Schichten, 96 Aufmerksamkeitsköpfe und eine massive Parameterzahl von 175 Milliarden. Was GPT-3 auszeichnete, war die Vielfalt seiner Trainingsdaten, die CommonCrawl, WebText, die englische Wikipedia, Buchkorpora und andere Quellen umfasste, die sich auf insgesamt 570 GB summierten.
Die Feinheiten von ChatGPTs Funktionsweise bleiben ein gut gehütetes Geheimnis. Es ist jedoch bekannt, dass ein Prozess namens “Reinforcement Learning from Human Feedback” (RLHF) von entscheidender Bedeutung ist. Ursprünglich aus einem früheren ChatGPT-Projekt stammend, war diese Technik instrumental bei der Feinabstimmung des GPT-3.5-Modells, um es angeschriebene Anweisungen besser zu entsprechen.
ChatGPTs Training umfasst einen dreistufigen Ansatz:
- Überwachtes Feinabstimmung: Beinhaltet das Kuratieren von von Menschen geschriebenen konversationellen Eingaben und Ausgaben, um das zugrunde liegende GPT-3.5-Modell zu verfeinern.
- Bewertungsmodellierung: Menschen bewerten verschiedene Modelausgaben basierend auf Qualität, um ein Bewertungsmodell zu trainieren, das jede Ausgabe basierend auf dem Kontext der Konversation bewertet.
- Reinforcement Learning: Der konversationelle Kontext dient als Hintergrund, bei dem das zugrunde liegende Modell eine Antwort vorschlägt. Diese Antwort wird vom Bewertungsmodell bewertet, und der Prozess wird mit einem Algorithmus namens Proximal Policy Optimization (PPO) optimiert.
Für diejenigen, die gerade erst mit ChatGPT beginnen, gibt es einen umfassenden Starter-Leitfaden hier. Wenn Sie tiefer in die Prompt-Engineering-Welt mit ChatGPT eintauchen möchten, haben wir auch einen fortgeschrittenen Leitfaden, der die neuesten und State-of-the-Art-Prompt-Techniken beleuchtet, der unter ChatGPT & Advanced Prompt Engineering: Die treibende Kraft hinter der KI-Revolution verfügbar ist.
Diffusion und Multimodale Modelle
Während Modelle wie VAEs und GANs ihre Ausgaben durch einen einzigen Durchgang erzeugen und somit an das festgelegt sind, was sie produzieren, haben Diffusionsmodelle das Konzept der “iterativen Verfeinerung” eingeführt. Durch diese Methode kehren sie zurück, um Fehler aus vorherigen Schritten zu korrigieren und allmählich ein polierteres Ergebnis zu produzieren.
Zentral für Diffusionsmodelle ist die Kunst der “iterativen Verfeinerung“. In ihrer Trainingsphase wird ein typisches Bild schrittweise durch das Hinzufügen verschiedener Niveaus von Rauschen korrupt. Diese verrauschte Version wird dann dem Modell präsentiert, das versucht, es zu “entrauschen” oder “zureinigen”. Durch mehrere Runden davon wird das Modell zu einem Meister der Wiederherstellung, indem es sowohl subtile als auch signifikante Abweichungen versteht.
Der Prozess der Generierung neuer Bilder nach dem Training ist faszinierend. Beginnend mit einer vollständig zufälligen Eingabe wird es kontinuierlich verfeinert, indem die Modelleigenschaften verwendet werden. Das Ziel ist es, mit der Mindestanzahl an Schritten ein perfektes Bild zu erreichen. Die Kontrolle des Rauschpegels erfolgt durch einen “Rauschplan”, einen Mechanismus, der die Menge an Rauschen regelt, die in verschiedenen Stadien angewendet wird. Ein Planer, wie er in Bibliotheken wie “Diffusers” zu finden ist, bestimmt die Art dieser verrauschten Versionen basierend auf etablierten Algorithmen.
Ein wesentliches architektonisches Rückgrat für viele Diffusionsmodelle ist das UNet – ein konvolutionales neuronales Netz, das für Aufgaben konzipiert ist, die Ausgaben erfordern, die die räumliche Dimension der Eingaben widerspiegeln. Es ist eine Mischung aus Downsampling- und Upsampling-Schichten, die eng miteinander verbunden sind, um hochauflösende Daten zu erhalten, was für bildbezogene Ausgaben von entscheidender Bedeutung ist.
Bei der Vertiefung in die Welt der generativen Modelle tritt OpenAIs DALL-E 2 als strahlendes Beispiel für die Verschmelzung von textuellen und visuellen KI-Fähigkeiten hervor. Es nutzt eine dreigliedrige Struktur:
DALL-E 2 zeigt eine dreifache Architektur:
- Text-Encoder: Es transformiert den Text-Prompt in eine konzeptionelle Einbettung in einem latenten Raum. Dieses Modell beginnt nicht von Null. Es stützt sich auf OpenAIs Kontrastives Language-Image-Pre-Training (CLIP)-Datensatz als Grundlage. CLIP dient als Brücke zwischen visuellen und textuellen Daten, indem es visuelle Konzepte mithilfe der natürlichen Sprache lernt. Durch einen Mechanismus namens kontrastives Lernen identifiziert und verbindet es Bilder mit ihren entsprechenden textlichen Beschreibungen.
- Der Vorgänger: Die aus dem Encoder abgeleitete Text-Einbettung wird dann in eine Bild-Einbettung umgewandelt. DALL-E 2 testete sowohl autoregressive als auch Diffusionsmethoden für diese Aufgabe, wobei letztere überlegene Ergebnisse zeigte. Autoregressive Modelle, wie in Transformern und PixelCNN gesehen, generieren Ausgaben in Sequenzen. Andererseits wandeln Diffusionsmodelle, wie das in DALL-E 2 verwendete, zufälliges Rauschen in vorhergesagte Bild-Einbettungen um, unterstützt durch Text-Einbettungen.
- Der Decoder: Der Höhepunkt des Prozesses, dieser Teil generiert die endgültige visuelle Ausgabe basierend auf dem Text-Prompt und der Bild-Einbettung aus der Vorgänger-Phase. DALL-E 2s Decoder verdankt seine Architektur einem anderen Modell, GLIDE, das ebenfalls realistische Bilder aus textuellen Hinweisen erzeugen kann.
Python-Entwickler, die an Langchain interessiert sind, sollten unseren detaillierten Tutorial besuchen, der alles von den Grundlagen bis hin zu fortgeschrittenen Techniken abdeckt.
Anwendungen der Generativen KI
Textuelle Bereiche
Beginnend mit Text hat die Generative KI fundamental durch Chatbots wie ChatGPT geändert. Diese Entitäten, die stark auf Natural Language Processing (NLP) und Large Language Models (LLMs) basieren, sind in der Lage, Aufgaben von Code-Generierung und Sprachübersetzung bis hin zu Zusammenfassung und Sentiment-Analyse auszuführen. ChatGPT hat weite Verbreitung gefunden und ist zu einem Eckpfeiler für Millionen geworden. Dies wird weiter durch konversationale KI-Plattformen verstärkt, die auf LLMs wie GPT-4, PaLM und BLOOM basieren, die mühelos Text produzieren, bei der Programmierung helfen und sogar mathematische Argumentationen anbieten.
Aus kommerzieller Sicht werden diese Modelle unschätzbar wertvoll. Unternehmen setzen sie für eine Vielzahl von Operationen ein, einschließlich Risikomanagement, Bestandsoptimierung und Vorhersage von Nachfrage. Einige bemerkenswerte Beispiele umfassen Bing AI, Google’s BARD und die ChatGPT-API.
Kunst
Die Welt der Bilder hat mit der Generativen KI, insbesondere seit der Einführung von DALL-E 2 im Jahr 2022, dramatische Veränderungen erlebt. Diese Technologie, die Bilder aus textuellen Prompts generieren kann, hat sowohl künstlerische als auch professionelle Auswirkungen. Zum Beispiel hat Midjourney diese Technologie genutzt, um beeindruckend realistische Bilder zu produzieren. Dieser jüngste Beitrag enthüllt Midjourney in einem detaillierten Leitfaden, der sowohl die Plattform als auch die Feinheiten der Prompt-Engineering-Feinheiten erhellt. Darüber hinaus nutzen Plattformen wie Alpaca AI und Photoroom AI die Generative KI für erweiterte Bildbearbeitungsfunktionen wie Hintergrundentfernung, Objektentfernung und sogar Gesichtswiederherstellung.
Video-Produktion
Die Video-Produktion, obwohl noch in den Anfängen in der Welt der Generativen KI, zeigt vielversprechende Fortschritte. Plattformen wie Imagen Video, Meta Make A Video und Runway Gen-2 drängen die Grenzen dessen, was möglich ist, auch wenn wirklich realistische Ausgaben noch auf dem Horizont liegen. Diese Modelle bieten erheblichen Nutzen für die Erstellung digitaler Menschenvideos, wobei Anwendungen wie Synthesia und SuperCreator die Spitze bilden. Bemerkenswert ist, dass Tavus AI ein einzigartiges Verkaufsargument bietet, indem es Videos für einzelne Zuschauer personalisiert, was für Unternehmen ein Segen ist.
Code-Erstellung
Die Codierung, ein unverzichtbarer Aspekt unserer digitalen Welt, ist nicht von der Generativen KI unberührt geblieben. Obwohl ChatGPT ein bevorzugtes Werkzeug ist, wurden mehrere andere KI-Anwendungen für Codierungszwecke entwickelt. Diese Plattformen, wie GitHub Copilot, Alphacode und CodeComplete, dienen als Coding-Assistenten und können sogar Code aus textuellen Prompts generieren. Was faszinierend ist, ist die Anpassungsfähigkeit dieser Tools. Codex, die treibende Kraft hinter GitHub Copilot, kann an den Codierstil eines Einzelnen angepasst werden, was das Personalisierungspotenzial der Generativen KI unterstreicht.
Schlussfolgerung
Die Kombination von menschlicher Kreativität und maschineller Berechnung hat sich zu einem unschätzbaren Werkzeug entwickelt, wobei Plattformen wie ChatGPT und DALL-E 2 die Grenzen dessen, was vorstellbar ist, erweitern. Von der Erstellung textlicher Inhalte bis hin zur Gestaltung visueller Meisterwerke sind ihre Anwendungen vielfältig und umfassend.
Wie bei jeder Technologie sind ethische Auswirkungen von größter Bedeutung. Während die Generative KI unbegrenzte Kreativität verspricht, ist es entscheidend, sie verantwortungsvoll einzusetzen und sich der potenziellen Vorurteile und der Macht der Datenmanipulation bewusst zu sein.
Mit Tools wie ChatGPT, die immer zugänglicher werden, ist jetzt der perfekte Zeitpunkt, um ins Wasser zu steigen und zu experimentieren. Ob Sie Künstler, Coder oder Technologie-Enthusiast sind, die Welt der Generativen KI ist reich an Möglichkeiten, die nur darauf warten, erforscht zu werden. Die Revolution ist nicht am Horizont; sie ist hier und jetzt. Also, springen Sie hinein!

















