KĂŒnstliche Intelligenz
NLP-Aufstieg mit Transformer-Modellen | Eine umfassende Analyse von T5, BERT und GPT

Die Verarbeitung natĂŒrlicher Sprache (Natural Language Processing, NLP) hat in den letzten Jahren einige der einflussreichsten DurchbrĂŒche erlebt, vor allem aufgrund der Transformer-Architektur. Diese DurchbrĂŒche haben nicht nur die FĂ€higkeiten von Maschinen, menschliche Sprache zu verstehen und zu erzeugen, verbessert, sondern auch die Landschaft zahlreicher Anwendungen neu definiert, von Suchmaschinen bis hin zu Konversations-KI.
Um die Bedeutung von Transformatoren vollstĂ€ndig zu verstehen, mĂŒssen wir zunĂ€chst auf die VorgĂ€nger und Bausteine ââzurĂŒckblicken, die den Grundstein fĂŒr diese revolutionĂ€re Architektur legten.
FrĂŒhe NLP-Techniken: Die Grundlagen vor Transformern
Worteinbettungen: Von One-Hot zu Word2Vec
In traditionellen NLP-AnsĂ€tzen erfolgte die Darstellung von Wörtern oft wörtlich und es fehlte jegliches semantisches oder syntaktisches VerstĂ€ndnis. One-Hot-Codierung ist ein Paradebeispiel fĂŒr diese EinschrĂ€nkung.
One-Hot-Codierung ist ein Prozess, bei dem kategoriale Variablen in eine binĂ€re Vektordarstellung umgewandelt werden, bei der nur ein Bit âheiĂâ (auf 1 gesetzt) ââist, wĂ€hrend alle anderen âkaltâ (auf 0 gesetzt) ââsind. Im NLP-Kontext wird jedes Wort in einem Vokabular durch One-Hot-Vektoren dargestellt, wobei jeder Vektor der GröĂe des Vokabulars entspricht und jedes Wort durch einen Vektor mit nur Nullen und einer 0 am Index dargestellt wird, der diesem Wort entspricht die Vokabelliste.
Beispiel fĂŒr One-Hot-Codierung
Angenommen, wir haben einen winzigen Wortschatz mit nur fĂŒnf Wörtern: [âKönigâ, âKöniginâ, âMannâ, âFrauâ, âKindâ]. Die One-Hot-Codierungsvektoren fĂŒr jedes Wort wĂŒrden so aussehen:
- âKönigâ -> [1, 0, 0, 0, 0]
- âKöniginâ -> [0, 1, 0, 0, 0]
- âMannâ -> [0, 0, 1, 0, 0]
- âFrauâ -> [0, 0, 0, 1, 0]
- âKindâ -> [0, 0, 0, 0, 1]
Mathematische Darstellung
Wenn wir bezeichnen wie die GröĂe unseres Wortschatzes und als One-Hot-Vektordarstellung des i-ten Wortes im Vokabular, die mathematische Darstellung von wĂ€re:
wobei die i-te Position 1 ist und alle anderen Positionen 0 sind.
Der gröĂte Nachteil der One-Hot-Codierung besteht darin, dass jedes Wort als isolierte Einheit behandelt wird, ohne Bezug zu anderen Wörtern. Dies fĂŒhrt zu spĂ€rlichen und hochdimensionalen Vektoren, die keine semantischen oder syntaktischen Informationen ĂŒber die Wörter erfassen.
Die EinfĂŒhrung von Worteinbettungen, insbesondere Word2Vec, war ein entscheidender Moment im NLP. Word2013Vec wurde 2 von einem Team bei Google unter der Leitung von Tomas Mikolov entwickelt und stellte Wörter in einem dichten Vektorraum dar und erfasste syntaktische und semantische Wortbeziehungen basierend auf ihrem Kontext in groĂen Textkorpora.
Im Gegensatz zur One-Hot-Codierung erzeugt Word2Vec dichte Vektoren, typischerweise mit Hunderten von Dimensionen. Wörter, die in Ă€hnlichen Kontexten vorkommen, wie zum Beispiel âKönigâ und âKöniginâ, haben Vektordarstellungen, die im Vektorraum nĂ€her beieinander liegen.
Zur Veranschaulichung nehmen wir an, wir haben ein Word2Vec-Modell trainiert und stellen nun Wörter in einem hypothetischen dreidimensionalen Raum dar. Die Einbettungen (die normalerweise mehr als dreidimensional sind, hier aber der Einfachheit halber reduziert wurden) könnten etwa so aussehen:
- âKönigâ -> [0.2, 0.1, 0.9]
- âKöniginâ -> [0.21, 0.13, 0.85]
- âMannâ -> [0.4, 0.3, 0.2]
- âFrauâ -> [0.41, 0.33, 0.27]
- âKindâ -> [0.5, 0.5, 0.1]
Obwohl diese Zahlen fiktiv sind, veranschaulichen sie, dass Àhnliche Wörter Àhnliche Vektoren haben.
Mathematische Darstellung
Wenn wir die Word2Vec-Einbettung eines Wortes darstellen als , und unser Einbettungsraum hat Dimensionen also kann dargestellt werden als:
Semantische Beziehungen
Word2Vec kann sogar komplexe ZusammenhĂ€nge, wie zum Beispiel Analogien, erfassen. Die berĂŒhmte Beziehung, die durch Word2Vec-Einbettungen erfasst wird, lautet beispielsweise:
Vektor (âKönigâ) â Vektor (âMannâ) + Vektor (âFrauâ)âVektor (âKöniginâ)
Dies ist möglich, weil Word2Vec die Wortvektoren wÀhrend des Trainings so anpasst, dass Wörter, die im Korpus gemeinsame Kontexte haben, eng im Vektorraum positioniert sind.
Word2Vec verwendet zwei Hauptarchitekturen, um eine verteilte Darstellung von Wörtern zu erstellen: Continuous Bag-of-Words (CBOW) und Skip-Gram. CBOW sagt ein Zielwort anhand der umgebenden Kontextwörter voraus, wÀhrend Skip-Gram das Gegenteil tut und Kontextwörter anhand eines Zielworts vorhersagt. Dies ermöglichte es Maschinen, die Verwendung und Bedeutung von Wörtern differenzierter zu verstehen.
Sequenzmodellierung: RNNs und LSTMs
Mit fortschreitendem Fachgebiet verlagerte sich der Schwerpunkt auf das Verstehen von Textsequenzen, was fĂŒr Aufgaben wie maschinelle Ăbersetzung, Textzusammenfassung und Stimmungsanalyse von entscheidender Bedeutung war. Rekurrente neuronale Netze (RNNs) wurden zum Grundstein fĂŒr diese Anwendungen, da sie in der Lage sind, sequentielle Daten durch die Aufrechterhaltung einer Form des GedĂ€chtnisses zu verarbeiten.
RNNs waren jedoch nicht ohne EinschrĂ€nkungen. Sie kĂ€mpften mit langfristigen AbhĂ€ngigkeiten aufgrund des Problems des verschwindenden Gradienten, bei dem Informationen ĂŒber lange Sequenzen verloren gehen, was es schwierig macht, Korrelationen zwischen entfernten Ereignissen zu lernen.
Long Short-Term Memory Networks (LSTMs), eingefĂŒhrt von Sepp Hochreiter und JĂŒrgen Schmidhuber im Jahr 1997hat dieses Problem mit einer ausgefeilteren Architektur gelöst. LSTMs verfĂŒgen ĂŒber Tore, die den Informationsfluss steuern: das Eingangstor, das Vergessenstor und das Ausgangstor. Diese Tore bestimmen, welche Informationen gespeichert, aktualisiert oder verworfen werden, wodurch das Netzwerk langfristige AbhĂ€ngigkeiten bewahren und die Leistung bei einer Vielzahl von NLP-Aufgaben deutlich verbessern kann.
Die Transformer-Architektur
Die NLP-Landschaft erfuhr mit der EinfĂŒhrung des Transformer-Modells im wegweisenden Artikel âAttention is All You Needâ von Vaswani et al. im Jahr 2017 einen dramatischen Wandel. Die Transformer-Architektur weicht von der sequentiellen Verarbeitung von RNNs und LSTMs ab und nutzt stattdessen einen Mechanismus namens âSelf-Attentionâ, um den Einfluss verschiedener Teile der Eingabedaten abzuwĂ€gen.
Die Kernidee des Transformators besteht darin, dass er die gesamten Eingabedaten auf einmal und nicht nacheinander verarbeiten kann. Dies ermöglicht eine wesentlich stĂ€rkere Parallelisierung und damit eine deutliche Steigerung der Trainingsgeschwindigkeit. Der Selbstaufmerksamkeitsmechanismus ermöglicht es dem Modell, sich bei der Verarbeitung auf verschiedene Teile des Textes zu konzentrieren, was fĂŒr das VerstĂ€ndnis des Kontexts und der Beziehungen zwischen Wörtern, unabhĂ€ngig von ihrer Position im Text, von entscheidender Bedeutung ist.
Encoder und Decoder in Transformatoren:
Im ursprĂŒnglichen Transformer-Modell, wie im Artikel beschrieben âAufmerksamkeit ist alles, was Sie brauchenâ von Vaswani et al. ist die Architektur in zwei Hauptteile unterteilt: den Encoder und den Decoder. Beide Teile bestehen aus Schichten, die die gleiche allgemeine Struktur haben, aber unterschiedlichen Zwecken dienen.
Encoder:
- Rollen: Die Aufgabe des Encoders besteht darin, die Eingabedaten zu verarbeiten und eine Darstellung zu erstellen, die die Beziehungen zwischen den Elementen (wie Wörter in einem Satz) erfasst. Dieser Teil des Transformators generiert keine neuen Inhalte; er transformiert lediglich die Eingabe in einen Zustand, den der Decoder verwenden kann.
- FunktionalitĂ€t: Jede Encoderschicht verfĂŒgt ĂŒber Selbstaufmerksamkeitsmechanismen und vorwĂ€rtsgerichtete neuronale Netze. Der Selbstaufmerksamkeitsmechanismus ermöglicht es jeder Position im Encoder, alle Positionen in der vorherigen Ebene des Encoders zu berĂŒcksichtigen â so kann er den Kontext um jedes Wort lernen.
- Kontextuelle Einbettungen: Die Ausgabe des Encoders ist eine Reihe von Vektoren, die die Eingabesequenz in einem hochdimensionalen Raum darstellen. Diese Vektoren werden oft als kontextuelle Einbettungen bezeichnet, da sie nicht nur die einzelnen Wörter, sondern auch deren Kontext innerhalb des Satzes kodieren.
Decoder:
- Rollen: Die Aufgabe des Decoders besteht darin, Ausgabedaten sequenziell, also StĂŒck fĂŒr StĂŒck, basierend auf den vom Encoder empfangenen Eingaben und den bisher generierten Daten zu generieren. Er ist fĂŒr Aufgaben wie die Textgenerierung konzipiert, bei denen die Reihenfolge der Generierung entscheidend ist.
- FunktionalitĂ€t: Decoder-Schichten enthalten ebenfalls Selbstaufmerksamkeitsmechanismen, sie sind jedoch maskiert, um zu verhindern, dass Positionen auf nachfolgende Positionen achten. Dadurch wird sichergestellt, dass die Vorhersage fĂŒr eine bestimmte Position nur von bekannten Ausgaben an Positionen davor abhĂ€ngen kann. DarĂŒber hinaus enthalten die Decoderschichten einen zweiten Aufmerksamkeitsmechanismus, der sich um die Ausgabe des Encoders kĂŒmmert und den Kontext aus der Eingabe in den Generierungsprozess integriert.
- Sequentielle Generierungsfunktionen: Dies bezieht sich auf die FĂ€higkeit des Decoders, eine Sequenz Element fĂŒr Element zu generieren und dabei auf dem aufzubauen, was er bereits erzeugt hat. Wenn beispielsweise Text generiert wird, sagt der Decoder das nĂ€chste Wort basierend auf dem vom Encoder bereitgestellten Kontext und der bereits generierten Wortfolge voraus.
Jede dieser Unterebenen innerhalb des Encoders und Decoders ist entscheidend fĂŒr die FĂ€higkeit des Modells, komplexe NLP-Aufgaben zu bewĂ€ltigen. Insbesondere der Multi-Head-Attention-Mechanismus ermöglicht es dem Modell, sich selektiv auf verschiedene Teile der Sequenz zu konzentrieren und so ein umfassendes KontextverstĂ€ndnis zu ermöglichen.
Beliebte Modelle mit Transformatoren
Nach dem anfĂ€nglichen Erfolg des Transformatormodells kam es zu einer Explosion neuer Modelle, die auf seiner Architektur basierten und jedes seine eigenen Innovationen und Optimierungen fĂŒr unterschiedliche Aufgaben aufwies:
BERT (Bidirektionale Encoder-Darstellungen von Transformatoren): BERT wurde 2018 von Google eingefĂŒhrt und revolutionierte die Art und Weise, wie kontextbezogene Informationen in Sprachdarstellungen integriert werden. Durch das Vortraining an einem groĂen Textkorpus mit einem maskierten Sprachmodell und der Vorhersage des nĂ€chsten Satzes erfasst BERT umfangreiche bidirektionale Kontexte und hat bei einer Vielzahl von NLP-Aufgaben hochmoderne Ergebnisse erzielt.
T5 (Text-zu-Text-Ăbertragungstransformator): Vorgestellt von Google im Jahr 2020T5 formuliert alle NLP-Aufgaben als Text-zu-Text-Problem um und verwendet dabei ein einheitliches textbasiertes Format. Dieser Ansatz vereinfacht die Anwendung des Modells auf eine Vielzahl von Aufgaben, einschlieĂlich Ăbersetzung, Zusammenfassung und Beantwortung von Fragen.
GPT (Generativer vortrainierter Transformer): Entwickelt von OpenAIDie GPT-Modellreihe begann mit GPT-1 und erreichte GPT-4 im Jahr 2023. Diese Modelle werden durch unĂŒberwachtes Lernen auf groĂen Textdatenmengen vorab trainiert und fĂŒr verschiedene Aufgaben fein abgestimmt. Ihre FĂ€higkeit, kohĂ€rente und kontextrelevante Texte zu generieren, hat ihnen groĂen Einfluss sowohl auf akademische als auch auf kommerzielle KI-Anwendungen verschafft.
Hier ist ein ausfĂŒhrlicherer Vergleich der Modelle T5, BERT und GPT in verschiedenen Dimensionen:
1. Tokenisierung und Wortschatz
- BERT: Verwendet die WordPiece-Tokenisierung mit einer VokabulargröĂe von etwa 30,000 Token.
- GPT: Verwendet Byte Pair Encoding (BPE) mit einer groĂen VokabulargröĂe (z. B. hat GPT-3 eine VokabulargröĂe von 175,000).
- T5: Nutzt die SentencePiece-Tokenisierung, die den Text als Rohtext behandelt und keine vorsegmentierten Wörter erfordert.
2. Ziele vor dem Training
- BERT: Masked Language Modeling (MLM) und Next Sentence Prediction (NSP).
- GPT: Causal Language Modeling (CLM), bei dem jedes Token das nÀchste Token in der Sequenz vorhersagt.
- T5: Verwendet ein Entrauschungsziel, bei dem zufÀllige Textabschnitte durch ein Sentinel-Token ersetzt werden und das Modell lernt, den Originaltext zu rekonstruieren.
3. Eingabedarstellung
- BERT: Token-, Segment- und Positionseinbettungen werden kombiniert, um die Eingabe darzustellen.
- GPT: Token- und Positionseinbettungen werden kombiniert (keine Segmenteinbettungen, da es nicht fĂŒr Satzpaaraufgaben konzipiert ist).
- T5: Nur Token-Einbettungen mit hinzugefĂŒgten relativen Positionskodierungen wĂ€hrend der AufmerksamkeitsvorgĂ€nge.
4. Aufmerksamkeitsmechanismus
- BERT: Verwendet absolute Positionskodierungen und ermöglicht jedem Token, sich um alle Token links und rechts zu kĂŒmmern (bidirektionale Aufmerksamkeit).
- GPT: Verwendet ebenfalls absolute Positionskodierungen, beschrÀnkt die Aufmerksamkeit jedoch nur auf vorherige Token (unidirektionale Aufmerksamkeit).
- T5: Implementiert eine Variante des Transformators, die relative Positionsverzerrungen anstelle von Positionseinbettungen verwendet.
5. Modellarchitektur
- BERT: Nur-Encoder-Architektur mit mehreren Schichten von Transformatorblöcken.
- GPT: Nur-Decoder-Architektur, ebenfalls mit mehreren Schichten, aber fĂŒr generative Aufgaben konzipiert.
- T5: Encoder-Decoder-Architektur, bei der sowohl der Encoder als auch der Decoder aus Transformatorschichten bestehen.
6. Feinabstimmungsansatz
- BERT: Passt die endgĂŒltigen verborgenen ZustĂ€nde des vorab trainierten Modells fĂŒr nachgelagerte Aufgaben mit zusĂ€tzlichen Ausgabeebenen nach Bedarf an.
- GPT: FĂŒgt eine lineare Ebene ĂŒber dem Transformator hinzu und optimiert die nachgelagerte Aufgabe unter Verwendung desselben kausalen Sprachmodellierungsziels.
- T5: Konvertiert alle Aufgaben in ein Text-zu-Text-Format, wobei das Modell so abgestimmt wird, dass es die Zielsequenz aus der Eingabesequenz generiert.
7. Trainingsdaten und -skala
- BERT: Auf BooksCorpus und der englischen Wikipedia geschult.
- GPT: GPT-2 und GPT-3 wurden anhand verschiedener aus dem Internet extrahierter DatensĂ€tze trainiert, wobei GPT-3 anhand eines noch gröĂeren Korpus namens Common Crawl trainiert wurde.
- T5: Ausgebildet am âColossal Clean Crawled Corpusâ, einer groĂen und sauberen Version des Common Crawl.
8. Umgang mit Kontext und BidirektionalitÀt
- BERT: Entwickelt, um den Kontext in beide Richtungen gleichzeitig zu verstehen.
- GPT: Geschult, den Kontext in einer VorwÀrtsrichtung (von links nach rechts) zu verstehen.
- T5: Kann bidirektionalen Kontext im Encoder und unidirektional im Decoder modellieren, geeignet fĂŒr Sequenz-zu-Sequenz-Aufgaben.
9. AnpassungsfÀhigkeit an nachgelagerte Aufgaben
- BERT: Erfordert aufgabenspezifische Kopfebenen und Feinabstimmung fĂŒr jede nachgelagerte Aufgabe.
- GPT: Ist generativer Natur und kann mit minimalen Ănderungen an seiner Struktur zur AusfĂŒhrung von Aufgaben aufgefordert werden.
- T5: Behandelt jede Aufgabe als âText-zu-Textâ-Problem und macht sie dadurch von Natur aus flexibel und anpassungsfĂ€hig an neue Aufgaben.
10. Interpretierbarkeit und ErklÀrbarkeit
- BERT: Die bidirektionale Natur bietet umfangreiche kontextbezogene Einbettungen, kann jedoch schwieriger zu interpretieren sein.
- GPT: Der unidirektionale Kontext ist möglicherweise einfacher zu verfolgen, es fehlt ihm jedoch die Tiefe des bidirektionalen Kontexts.
- T5: Das Encoder-Decoder-Framework bietet eine klare Trennung der Verarbeitungsschritte, kann jedoch aufgrund seiner generativen Natur komplex zu analysieren sein.
Der Einfluss von Transformern auf NLP
Transformer haben den Bereich des NLP revolutioniert, indem sie es Modellen ermöglicht haben, Datensequenzen parallel zu verarbeiten, was die Geschwindigkeit und Effizienz des Trainings groĂer neuronaler Netze drastisch erhöht hat. Sie fĂŒhrten den Selbstaufmerksamkeitsmechanismus ein, der es Modellen ermöglicht, die Bedeutung jedes Teils der Eingabedaten unabhĂ€ngig von der Entfernung innerhalb der Sequenz abzuwĂ€gen. Dies fĂŒhrte zu beispiellosen Verbesserungen bei einer Vielzahl von NLP-Aufgaben, einschlieĂlich, aber nicht beschrĂ€nkt auf, Ăbersetzung, Beantwortung von Fragen und Textzusammenfassung.
Die Forschung verschiebt weiterhin die Grenzen dessen, was transformatorbasierte Modelle leisten können. GPT-4 und seine Zeitgenossen sind nicht nur gröĂer, sondern aufgrund der Fortschritte in der Architektur und den Trainingsmethoden auch effizienter und leistungsfĂ€higer. Techniken wie Few-Shot-Learning, bei dem Modelle Aufgaben mit minimalen Beispielen ausfĂŒhren, und Methoden fĂŒr effektiveres Transferlernen stehen im Vordergrund der aktuellen Forschung.
Die auf Transformatoren basierenden Sprachmodelle lernen aus Daten, die Vorurteile enthalten können. Forscher und Praktiker arbeiten aktiv daran, diese Vorurteile zu identifizieren, zu verstehen und abzumildern. Die Techniken reichen von kuratierten TrainingsdatensÀtzen bis hin zu Anpassungen nach dem Training, die auf Fairness und NeutralitÀt abzielen.