Künstliche Intelligenz

Generative KI: Die Idee hinter CHATGPT, Dall-E, Midjourney und mehr

Aktualisiert on 8. August 2023

Generative KI – Eingabeaufforderung während der Fahrt

Die Welt der Kunst, der Kommunikation und der Art und Weise, wie wir die Realität wahrnehmen, verändert sich rasant. Wenn wir auf die Geschichte der menschlichen Innovation zurückblicken, könnten wir die Erfindung des Rades oder die Entdeckung der Elektrizität als monumentale Sprünge betrachten. Heute findet eine neue Revolution statt – die Überbrückung der Kluft zwischen menschlicher Kreativität und maschineller Berechnung. Das ist generative KI.

Generative Modelle haben die Grenze zwischen Mensch und Maschine verwischt. Mit dem Aufkommen von Modellen wie GPT-4, das Transformatormodule verwendet, sind wir der natürlichen und kontextreichen Sprachgenerierung einen Schritt näher gekommen. Diese Fortschritte haben Anwendungen in der Dokumentenerstellung, in Chatbot-Dialogsystemen und sogar in der synthetischen Musikkomposition vorangetrieben.

Jüngste Big-Tech-Entscheidungen unterstreichen seine Bedeutung. Microsoft ist es bereits stellt die Cortana-App ein diesen Monat, um neuere generative KI-Innovationen wie Bing Chat zu priorisieren. Auch Apple hat einen erheblichen Teil davon gewidmet 22.6 Milliarden US-Dollar Forschungs- und Entwicklungsbudget zur generativen KI, wie CEO Tim Cook andeutete.

Eine neue Ära der Modelle: Generativ vs. Diskriminierend

In der Geschichte der generativen KI geht es nicht nur um ihre Anwendungen, sondern im Wesentlichen um ihr Innenleben. Im Ökosystem der künstlichen Intelligenz gibt es zwei Modelle: diskriminativ und generativ.

Diskriminierende Modelle begegnen den meisten Menschen im täglichen Leben. Diese Algorithmen nehmen Eingabedaten wie einen Text oder ein Bild und verknüpfen sie mit einer Zielausgabe wie einer Wortübersetzung oder einer medizinischen Diagnose. Es geht um Kartierung und Vorhersage.

Generative Modelle hingegen sind Schöpfer. Sie interpretieren oder prognostizieren nicht nur; Sie generieren neue, komplexe Ausgaben aus Zahlenvektoren, die oft nicht einmal mit realen Werten in Zusammenhang stehen.

Die Technologien hinter generativen Modellen

Generative Modelle verdanken ihre Existenz tiefen neuronalen Netzwerken, hochentwickelten Strukturen, die die Funktionalität des menschlichen Gehirns nachahmen sollen. Durch die Erfassung und Verarbeitung vielfältiger Datenvariationen dienen diese Netzwerke als Rückgrat zahlreicher generativer Modelle.

Wie werden diese generativen Modelle zum Leben erweckt? Normalerweise basieren sie auf tiefen neuronalen Netzen, die für die Erfassung vielfältiger Datenvariationen optimiert sind. Ein Paradebeispiel ist das Generative Adversarial Network (GAN), bei dem zwei neuronale Netze, der Generator und der Diskriminator, in einer einzigartigen Lehrer-Schüler-Beziehung miteinander konkurrieren und voneinander lernen. Von der Malerei bis zum Stiltransfer, von der Musikkomposition bis zum Spielen – diese Modelle entwickeln und erweitern sich auf bisher unvorstellbare Weise.

Das hört nicht bei GANs auf. Variations-Autoencoder (VAEs) sind ein weiterer zentraler Akteur im Bereich der generativen Modelle. VAEs zeichnen sich durch ihre Fähigkeit aus, fotorealistische Bilder aus scheinbar zufälligen Zahlen zu erstellen. Wie? Durch die Verarbeitung dieser Zahlen durch einen latenten Vektor entsteht Kunst, die die Komplexität der menschlichen Ästhetik widerspiegelt.

Generative KI-Typen: Text zu Text, Text zu Bild

Transformatoren & LLM

Das Papier "Aufmerksamkeit ist alles was Sie brauchen„von Google Brain markierte einen Wandel in der Art und Weise, wie wir über Textmodellierung denken. Anstelle komplexer und sequenzieller Architekturen wie Recurrent Neural Networks (RNNs) oder Convolutional Neural Networks (CNNs) führte das Transformer-Modell das Konzept der Aufmerksamkeit ein, das im Wesentlichen bedeutete, sich je nach Kontext auf verschiedene Teile des Eingabetextes zu konzentrieren. Einer der Hauptvorteile davon war die einfache Parallelisierung. Im Gegensatz zu RNNs, die Text sequentiell verarbeiten, was ihre Skalierung erschwert, können Transformers Teile des Textes gleichzeitig verarbeiten, wodurch das Training bei großen Datensätzen schneller und effizienter wird.

: Transformer-Modell Architektur

In einem langen Text hat nicht jedes Wort oder jeder Satz, den Sie lesen, die gleiche Bedeutung. Einige Teile erfordern je nach Kontext mehr Aufmerksamkeit. Diese Fähigkeit, unseren Fokus je nach Relevanz zu verschieben, wird vom Aufmerksamkeitsmechanismus nachgeahmt.

Um dies zu verstehen, denken Sie an einen Satz: „Unite AI, veröffentlichen Sie Neuigkeiten zu KI und Robotik.“ Um nun das nächste Wort vorherzusagen, muss man verstehen, was im vorherigen Kontext am wichtigsten ist. Der Begriff „Robotik“ könnte darauf hindeuten, dass sich das nächste Wort auf einen bestimmten Fortschritt oder ein bestimmtes Ereignis im Bereich der Robotik beziehen könnte, während „Veröffentlichen“ darauf hinweisen könnte, dass sich der folgende Kontext auf eine aktuelle Veröffentlichung oder einen aktuellen Artikel bezieht.

: Illustration der Selbstaufmerksamkeit

Aufmerksamkeitsmechanismen in Transformers sollen diesen selektiven Fokus erreichen. Sie beurteilen die Wichtigkeit verschiedener Teile des Eingabetextes und entscheiden, wo bei der Generierung einer Antwort „gesucht“ werden soll. Dies ist eine Abkehr von älteren Architekturen wie RNNs, die versuchten, die Essenz des gesamten Eingabetextes in einen einzigen „Zustand“ oder „Speicher“ zu packen.

Die Funktionsweise der Aufmerksamkeit kann mit einem Schlüsselwert-Abrufsystem verglichen werden. Beim Versuch, das nächste Wort in einem Satz vorherzusagen, bietet jedes vorangehende Wort einen „Schlüssel“, der auf seine potenzielle Relevanz hinweist, und basierend darauf, wie gut diese Schlüssel zum aktuellen Kontext (oder der aktuellen Abfrage) passen, tragen sie einen „Wert“ oder eine Gewichtung bei Vorhersage.

Diese fortschrittlichen KI-Deep-Learning-Modelle wurden nahtlos in verschiedene Anwendungen integriert, von Googles Suchmaschinenerweiterungen mit BERT bis hin zu GitHubs Copilot, der die Fähigkeit von Large Language Models (LLMs) nutzt, einfache Codeausschnitte in voll funktionsfähige Quellcodes umzuwandeln.

Große Sprachmodelle (LLMs) wie GPT-4, Bard und LLaMA sind kolossale Konstrukte, die dazu dienen, menschliche Sprache, Code und mehr zu entschlüsseln und zu generieren. Ihre immense Größe, die von Milliarden bis Billionen Parametern reicht, ist eines ihrer charakteristischen Merkmale. Diese LLMs werden mit großen Mengen an Textdaten gefüttert, die es ihnen ermöglichen, die Feinheiten der menschlichen Sprache zu erfassen. Ein auffälliges Merkmal dieser Modelle ist ihre Eignung für „wenige Schüsse" Lernen. Im Gegensatz zu herkömmlichen Modellen, die große Mengen spezifischer Trainingsdaten benötigen, können LLMs aus einer sehr begrenzten Anzahl von Beispielen (oder „Aufnahmen“) verallgemeinern.

Stand der Large Language Models (LLMs) ab Mitte 2023

Modell	Entwickler:in / Unternehmen	Parameter	Verfügbarkeit und Zugriff	Bemerkenswerte Merkmale und Bemerkungen
GPT-4	OpenAI	1.5 Trillion	Nicht Open Source, nur API-Zugriff	Beeindruckende Leistung bei einer Vielzahl von Aufgaben, kann Bilder und Text verarbeiten, maximale Eingabelänge 32,768 Token
GPT-3	OpenAI	175 Milliarden	Nicht Open Source, nur API-Zugriff	Nachgewiesene Lernfähigkeiten mit wenigen und null Schüssen. Führt eine Textvervollständigung in natürlicher Sprache durch.
BLOOM	große Wissenschaft	176 Milliarden	Herunterladbares Modell, gehostete API verfügbar	Mehrsprachiges LLM, entwickelt durch globale Zusammenarbeit. Unterstützt 13 Programmiersprachen.
DieMDA	Google	173 Milliarden	Nicht Open Source, keine API oder Download	Wer im Dialog geschult ist, kann lernen, über praktisch alles zu sprechen
MT-NLG	Nvidia/Microsoft	530 Milliarden	API-Zugriff nach Anwendung	Nutzt transformatorbasierte Megatron-Architektur für verschiedene NLP-Aufgaben.
Lama	Meta-KI	7B bis 65B)	Auf Antrag herunterladbar	Beabsichtigt, die KI zu demokratisieren, indem der Zugang für Personen in Forschung, Regierung und Wissenschaft ermöglicht wird.

Wie werden LLMs verwendet?

LLMs können auf verschiedene Arten verwendet werden, darunter:

Direkte Nutzung: Einfache Nutzung eines vorab trainierten LLM zur Textgenerierung oder -verarbeitung. Verwenden Sie beispielsweise GPT-4, um einen Blog-Beitrag ohne zusätzliche Feinabstimmung zu schreiben.
Feinabstimmung: Anpassen eines vorab trainierten LLM für eine bestimmte Aufgabe, eine Methode, die als Transferlernen bezeichnet wird. Ein Beispiel wäre die Anpassung von T5, um Zusammenfassungen für Dokumente in einer bestimmten Branche zu erstellen.
Informationsabruf: Verwendung von LLMs wie BERT oder GPT als Teil größerer Architekturen zur Entwicklung von Systemen, die Informationen abrufen und kategorisieren können.

: ChatGPT-Feinabstimmungsarchitektur

Aufmerksamkeit für mehrere Köpfe: Warum einen, wenn man viele haben kann?

Allerdings kann es einschränkend sein, sich auf einen einzigen Aufmerksamkeitsmechanismus zu verlassen. Verschiedene Wörter oder Sequenzen in einem Text können unterschiedliche Arten von Relevanz oder Assoziationen haben. Hier kommt die Multi-Head-Aufmerksamkeit ins Spiel. Anstelle eines Satzes von Aufmerksamkeitsgewichtungen verwendet die Multi-Head-Aufmerksamkeit mehrere Sätze, wodurch das Modell eine größere Vielfalt an Beziehungen im Eingabetext erfassen kann. Jeder Aufmerksamkeits-„Kopf“ kann sich auf verschiedene Teile oder Aspekte der Eingabe konzentrieren, und ihr kombiniertes Wissen wird für die endgültige Vorhersage verwendet.

ChatGPT: Das beliebteste generative KI-Tool

Seit der Einführung von GPT im Jahr 2018 basierte das Modell im Wesentlichen auf der Grundlage von 12 Schichten, 12 Aufmerksamkeitsköpfen und 120 Millionen Parametern, die hauptsächlich auf einem Datensatz namens BookCorpus trainiert wurden. Dies war ein beeindruckender Auftakt, der einen Einblick in die Zukunft der Sprachmodelle bot.

GPT-2, das 2019 vorgestellt wurde, konnte mit einer Vervierfachung der Anzahl an Ebenen und Aufmerksamkeitsköpfen aufwarten. Bezeichnenderweise stieg die Parameterzahl auf 1.5 Milliarden. Diese erweiterte Version leitete ihr Training von WebText ab, einem Datensatz, der mit 40 GB Text aus verschiedenen Reddit-Links angereichert ist.

GPT-3, das im Mai 2020 gestartet wurde, hatte 96 Schichten, 96 Aufmerksamkeitsköpfe und eine riesige Parameteranzahl von 175 Milliarden. Was GPT-3 auszeichnete, waren seine vielfältigen Trainingsdaten, die CommonCrawl, WebText, englische Wikipedia, Buchkorpora und andere Quellen umfassten und insgesamt 570 GB umfassten.

Die Feinheiten der Funktionsweise von ChatGPT bleiben ein streng gehütetes Geheimnis. Es ist jedoch bekannt, dass ein Prozess namens „Reinforcement Learning from Human Feedback“ (RLHF) von entscheidender Bedeutung ist. Diese Technik stammt aus einem früheren ChatGPT-Projekt und trug maßgeblich dazu bei, das GPT-3.5-Modell besser an schriftliche Anweisungen anzupassen.

Die Schulung von ChatGPT umfasst einen dreistufigen Ansatz:

Überwachte Feinabstimmung: Beinhaltet die Kuratierung von von Menschen geschriebenen Konversationseingaben und -ausgaben, um das zugrunde liegende GPT-3.5-Modell zu verfeinern.
Belohnungsmodellierung: Menschen ordnen verschiedene Modellergebnisse nach Qualität und helfen so dabei, ein Belohnungsmodell zu trainieren, das jedes Ergebnis unter Berücksichtigung des Konversationskontexts bewertet.
Reinforcement Learning: Der Gesprächskontext dient als Hintergrund, vor dem das zugrunde liegende Modell eine Antwort vorschlägt. Diese Reaktion wird durch das Belohnungsmodell bewertet und der Prozess mithilfe eines Algorithmus namens „Proximal Policy Optimization“ (PPO) optimiert.

Für diejenigen, die gerade erst in ChatGPT eintauchen, gibt es einen umfassenden Einstiegsleitfaden hier. Wenn Sie tiefer in das Prompt-Engineering mit ChatGPT eintauchen möchten, haben wir auch einen erweiterten Leitfaden, der die neuesten und modernsten Prompt-Techniken beleuchtet, verfügbar unter „ChatGPT und Advanced Prompt Engineering: Die KI-Evolution vorantreiben'.

Diffusions- und multimodale Modelle

Während Modelle wie VAEs und GANs ihre Ausgaben in einem einzigen Durchgang erzeugen und somit an das gebunden sind, was sie produzieren, haben Diffusionsmodelle das Konzept eingeführt: „Iterative Verfeinerung'. Mit dieser Methode kehren sie zurück, verfeinern Fehler aus vorherigen Schritten und erzielen nach und nach ein ausgefeilteres Ergebnis.

Im Mittelpunkt von Diffusionsmodellen steht die Kunst des „Korruption“ und „Verfeinerung“. In der Trainingsphase wird ein typisches Bild zunehmend durch das Hinzufügen unterschiedlicher Rauschpegel verfälscht. Diese verrauschte Version wird dann dem Modell zugeführt, das versucht, sie zu „entrauschen“ oder zu „entkorrumpieren“. Durch mehrere Runden wird das Modell zu einem Meister der Wiederherstellung und versteht sowohl subtile als auch signifikante Aberrationen.

: Bild generiert aus Midjourney

Der Prozess der Generierung neuer Bilder nach dem Training ist faszinierend. Beginnend mit einer vollständig zufälligen Eingabe wird diese mithilfe der Vorhersagen des Modells kontinuierlich verfeinert. Ziel ist es, mit möglichst wenigen Schritten ein makelloses Bild zu erhalten. Die Kontrolle des Grads der Korruption erfolgt durch einen „Lärmplan“, einen Mechanismus, der regelt, wie viel Lärm in den verschiedenen Phasen angewendet wird. Ein Scheduler, wie er in Bibliotheken wie „Diffusoren„, bestimmt die Art dieser verrauschten Wiedergaben basierend auf etablierten Algorithmen.

Ein wesentliches architektonisches Rückgrat für viele Diffusionsmodelle ist das UNet– ein Faltungs-Neuronales Netzwerk, das auf Aufgaben zugeschnitten ist, die Ausgaben erfordern, die die räumliche Dimension der Eingaben widerspiegeln. Es handelt sich um eine Mischung aus Downsampling- und Upsampling-Ebenen, die eng miteinander verbunden sind, um hochauflösende Daten beizubehalten, die für bildbezogene Ausgaben von entscheidender Bedeutung sind.

Wir tauchen tiefer in den Bereich generativer Modelle ein, OpenAIs DALL-E2 erweist sich als leuchtendes Beispiel für die Verschmelzung textlicher und visueller KI-Fähigkeiten. Es verwendet eine dreistufige Struktur:

DALL-E 2 weist eine dreifache Architektur auf:

Text-Encoder: Er wandelt die Textaufforderung in eine konzeptionelle Einbettung in einen latenten Raum um. Dieses Modell beginnt nicht beim Nullpunkt. Es basiert auf dem Contrastive Language–Image Pre-Training von OpenAI (CLIP) Datensatz als Grundlage. CLIP dient als Brücke zwischen visuellen und textuellen Daten, indem es visuelle Konzepte mithilfe natürlicher Sprache lernt. Durch einen Mechanismus, der als kontrastives Lernen bekannt ist, werden Bilder identifiziert und mit den entsprechenden Textbeschreibungen abgeglichen.
Der Prior: Die vom Encoder abgeleitete Texteinbettung wird dann in eine Bildeinbettung umgewandelt. DALL-E 2 testete für diese Aufgabe sowohl autoregressive als auch Diffusionsmethoden, wobei letztere überlegene Ergebnisse lieferten. Autoregressive Modelle, wie sie in Transformers und PixelCNN zu sehen sind, generieren Ausgaben in Sequenzen. Andererseits wandeln Diffusionsmodelle, wie das in DALL-E 2 verwendete, zufälliges Rauschen mithilfe von Texteinbettungen in vorhergesagte Bildeinbettungen um.
Der Decoder: Der Höhepunkt des Prozesses. Dieser Teil generiert die endgültige visuelle Ausgabe basierend auf der Textaufforderung und der Bildeinbettung aus der vorherigen Phase. Der Decoder von DALL.E 2 verdankt seine Architektur einem anderen Modell, GLEITEN, das auch realistische Bilder aus Texthinweisen erzeugen kann.

: Vereinfachte Architektur des DALL-E-Modells

Interessierte Python-Benutzer Langkette Schauen Sie sich unser ausführliches Tutorial an, das alles von den Grundlagen bis hin zu fortgeschrittenen Techniken abdeckt.

Anwendungen generativer KI

Textdomänen

Beginnend mit Text wurde die generative KI durch Chatbots wie z. B. grundlegend verändert ChatGPT. Diese Einheiten stützen sich stark auf die Verarbeitung natürlicher Sprache (NLP) und große Sprachmodelle (LLMs) und sind in der Lage, Aufgaben auszuführen, die von der Codegenerierung und Sprachübersetzung bis hin zur Zusammenfassung und Stimmungsanalyse reichen. ChatGPT zum Beispiel hat eine breite Akzeptanz erfahren und ist für Millionen zu einem festen Bestandteil geworden. Dies wird durch Konversations-KI-Plattformen, die auf LLMs wie GPT-4 basieren, noch verstärkt. Palme und BLOOM, die mühelos Text erstellen, beim Programmieren helfen und sogar mathematische Argumente bieten.

Aus kommerzieller Sicht werden diese Modelle von unschätzbarem Wert. Unternehmen setzen sie für eine Vielzahl von Vorgängen ein, darunter Risikomanagement, Bestandsoptimierung und Prognoseanforderungen. Einige bemerkenswerte Beispiele sind Bing AI, Googles BARD und die ChatGPT-API.

Kunst

Die Welt der Bilder hat mit der generativen KI dramatische Veränderungen erlebt, insbesondere seit der Einführung von DALL-E 2 im Jahr 2022. Diese Technologie, die Bilder aus Textaufforderungen generieren kann, hat sowohl künstlerische als auch berufliche Auswirkungen. Midjourney hat diese Technologie beispielsweise genutzt, um beeindruckend realistische Bilder zu erzeugen. Dieser aktuelle Beitrag entmystifiziert Midjourney in einem detaillierten Leitfaden, der sowohl die Plattform als auch ihre technischen Feinheiten erläutert. Darüber hinaus nutzen Plattformen wie Alpaca AI und Photoroom AI generative KI für erweiterte Bildbearbeitungsfunktionen wie Hintergrundentfernung, Objektlöschung und sogar Gesichtswiederherstellung.

Video Produktion

Auch wenn die Videoproduktion im Bereich der generativen KI noch in den Kinderschuhen steckt, weist sie vielversprechende Fortschritte auf. Plattformen wie Imagen Video, Meta Make A Video und Runway Gen-2 erweitern die Grenzen des Möglichen, auch wenn wirklich realistische Ergebnisse noch in Sicht sind. Diese Modelle bieten einen erheblichen Nutzen für die Erstellung digitaler menschlicher Videos, wobei Anwendungen wie Synthesia und SuperCreator die Nase vorn haben. Insbesondere bietet Tavus AI ein Alleinstellungsmerkmal durch die Personalisierung von Videos für einzelne Zuschauer, ein Segen für Unternehmen.

Code-Erstellung

Die Codierung, ein unverzichtbarer Aspekt unserer digitalen Welt, ist von der generativen KI nicht unberührt geblieben. Obwohl ChatGPT ein beliebtes Tool ist, wurden mehrere andere KI-Anwendungen für Codierungszwecke entwickelt. Diese Plattformen wie GitHub Copilot, Alphacode und CodeComplete dienen als Codierungsassistenten und können sogar Code aus Texteingabeaufforderungen erstellen. Das Faszinierende ist die Anpassungsfähigkeit dieser Tools. Codex, die treibende Kraft hinter GitHub Copilot, kann an den Programmierstil einer Person angepasst werden und unterstreicht das Personalisierungspotenzial der generativen KI.

Zusammenfassung

Durch die Verbindung menschlicher Kreativität mit maschineller Berechnung hat es sich zu einem unschätzbar wertvollen Werkzeug entwickelt, wobei Plattformen wie ChatGPT und DALL-E 2 die Grenzen des Vorstellbaren erweitern. Von der Erstellung von Textinhalten bis hin zur Bildhauerei visueller Meisterwerke sind ihre Einsatzmöglichkeiten vielfältig.

Wie bei jeder Technologie sind ethische Implikationen von größter Bedeutung. Während generative KI grenzenlose Kreativität verspricht, ist es wichtig, sie verantwortungsvoll einzusetzen und sich möglicher Vorurteile und der Macht der Datenmanipulation bewusst zu sein.

Da Tools wie ChatGPT immer zugänglicher werden, ist jetzt der perfekte Zeitpunkt, das Wasser auszuprobieren und zu experimentieren. Egal, ob Sie Künstler, Programmierer oder Technikbegeisterter sind, das Reich der generativen KI bietet zahlreiche Möglichkeiten, die darauf warten, erkundet zu werden. Die Revolution ist nicht in Sicht; es ist hier und jetzt. Also, tauchen Sie ein!

Als nächstes

Generative KI steht im Mittelpunkt der Ai2023-Konferenz 4

Verpassen Sie nicht

Die analogen Denkfähigkeiten der KI: Eine Herausforderung für die menschliche Intelligenz?

Aayush Mittal

Ich habe die letzten fünf Jahre damit verbracht, in die faszinierende Welt des maschinellen Lernens und des Deep Learning einzutauchen. Meine Leidenschaft und mein Fachwissen haben dazu geführt, dass ich an über 50 verschiedenen Software-Engineering-Projekten mitgewirkt habe, mit besonderem Schwerpunkt auf KI/ML. Meine anhaltende Neugier hat mich auch zur Verarbeitung natürlicher Sprache geführt, einem Bereich, den ich gerne weiter erforschen möchte.