Künstliche Intelligenz

NLP-Aufstieg mit Transformer-Modellen | Eine umfassende Analyse von T5, BERT und GPT

Veröffentlicht November 8, 2023

Aayush Mittal mittal

Die Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) hat in den letzten Jahren einige der einflussreichsten Durchbrüche erlebt, vor allem aufgrund der Transformer-Architektur. Diese Durchbrüche haben nicht nur die Fähigkeiten von Maschinen, menschliche Sprache zu verstehen und zu erzeugen, verbessert, sondern auch die Landschaft zahlreicher Anwendungen neu definiert, von Suchmaschinen bis hin zu Konversations-KI.

Um die Bedeutung von Transformatoren vollständig zu verstehen, müssen wir zunächst auf die Vorgänger und Bausteine zurückblicken, die den Grundstein für diese revolutionäre Architektur legten.

Frühe NLP-Techniken: Die Grundlagen vor Transformern

Worteinbettungen: Von One-Hot zu Word2Vec

In traditionellen NLP-Ansätzen erfolgte die Darstellung von Wörtern oft wörtlich und es fehlte jegliches semantisches oder syntaktisches Verständnis. One-Hot-Codierung ist ein Paradebeispiel für diese Einschränkung.

One-Hot-Codierung ist ein Prozess, bei dem kategoriale Variablen in eine binäre Vektordarstellung umgewandelt werden, bei der nur ein Bit „heiß“ (auf 1 gesetzt) ist, während alle anderen „kalt“ (auf 0 gesetzt) sind. Im NLP-Kontext wird jedes Wort in einem Vokabular durch One-Hot-Vektoren dargestellt, wobei jeder Vektor der Größe des Vokabulars entspricht und jedes Wort durch einen Vektor mit nur Nullen und einer 0 am Index dargestellt wird, der diesem Wort entspricht die Vokabelliste.

Beispiel für One-Hot-Codierung

Angenommen, wir haben einen winzigen Wortschatz mit nur fünf Wörtern: [„König“, „Königin“, „Mann“, „Frau“, „Kind“]. Die One-Hot-Codierungsvektoren für jedes Wort würden so aussehen:

„König“ -> [1, 0, 0, 0, 0]
„Königin“ -> [0, 1, 0, 0, 0]
„Mann“ -> [0, 0, 1, 0, 0]
„Frau“ -> [0, 0, 0, 1, 0]
„Kind“ -> [0, 0, 0, 0, 1]

Mathematische Darstellung

Wenn wir bezeichnen $V$ wie die Größe unseres Wortschatzes und $w_{i}$ als One-Hot-Vektordarstellung des i-ten Wortes im Vokabular, die mathematische Darstellung von $w_{i}$ wäre:

$w_{i} = [0, 0, ..., 1, ..., 0, 0]$ $wobei die i-te Position 1 ist und alle anderen Positionen 0 sind.$

Der größte Nachteil der One-Hot-Codierung besteht darin, dass jedes Wort als isolierte Einheit behandelt wird, ohne Bezug zu anderen Wörtern. Dies führt zu spärlichen und hochdimensionalen Vektoren, die keine semantischen oder syntaktischen Informationen über die Wörter erfassen.

Die Einführung von Worteinbettungen, insbesondere Word2Vec, war ein entscheidender Moment im NLP. Word2013Vec wurde 2 von einem Team bei Google unter der Leitung von Tomas Mikolov entwickelt und stellte Wörter in einem dichten Vektorraum dar und erfasste syntaktische und semantische Wortbeziehungen basierend auf ihrem Kontext in großen Textkorpora.

Im Gegensatz zur One-Hot-Codierung erzeugt Word2Vec dichte Vektoren, typischerweise mit Hunderten von Dimensionen. Wörter, die in ähnlichen Kontexten vorkommen, wie zum Beispiel „König“ und „Königin“, haben Vektordarstellungen, die im Vektorraum näher beieinander liegen.

Zur Veranschaulichung nehmen wir an, wir haben ein Word2Vec-Modell trainiert und stellen nun Wörter in einem hypothetischen dreidimensionalen Raum dar. Die Einbettungen (die normalerweise mehr als dreidimensional sind, hier aber der Einfachheit halber reduziert wurden) könnten etwa so aussehen:

„König“ -> [0.2, 0.1, 0.9]
„Königin“ -> [0.21, 0.13, 0.85]
„Mann“ -> [0.4, 0.3, 0.2]
„Frau“ -> [0.41, 0.33, 0.27]
„Kind“ -> [0.5, 0.5, 0.1]

Obwohl diese Zahlen fiktiv sind, veranschaulichen sie, dass ähnliche Wörter ähnliche Vektoren haben.

Mathematische Darstellung

Wenn wir die Word2Vec-Einbettung eines Wortes darstellen als $v_{w}$ , und unser Einbettungsraum hat $d$ Dimensionen also $v_{w}$ kann dargestellt werden als:

$v_{w} = [v_{1}, v_{2}, ..., v_{d}]$ $wo jeweils v_{i} ist eine Gleitkommazahl, die ein Merkmal des Wortes im Einbettungsraum darstellt.$

Semantische Beziehungen

Word2Vec kann sogar komplexe Zusammenhänge, wie zum Beispiel Analogien, erfassen. Die berühmte Beziehung, die durch Word2Vec-Einbettungen erfasst wird, lautet beispielsweise:

$Vektor („König“) - Vektor („Mann“) + Vektor („Frau“) \approx Vektor („Königin“)$

Dies ist möglich, weil Word2Vec die Wortvektoren während des Trainings so anpasst, dass Wörter, die im Korpus gemeinsame Kontexte haben, eng im Vektorraum positioniert sind.

Word2Vec verwendet zwei Hauptarchitekturen, um eine verteilte Darstellung von Wörtern zu erstellen: Continuous Bag-of-Words (CBOW) und Skip-Gram. CBOW sagt ein Zielwort anhand der umgebenden Kontextwörter voraus, während Skip-Gram das Gegenteil tut und Kontextwörter anhand eines Zielworts vorhersagt. Dies ermöglichte es Maschinen, die Verwendung und Bedeutung von Wörtern differenzierter zu verstehen.

Sequenzmodellierung: RNNs und LSTMs

Mit fortschreitendem Fachgebiet verlagerte sich der Schwerpunkt auf das Verstehen von Textsequenzen, was für Aufgaben wie maschinelle Übersetzung, Textzusammenfassung und Stimmungsanalyse von entscheidender Bedeutung war. Rekurrente neuronale Netze (RNNs) wurden zum Grundstein für diese Anwendungen, da sie in der Lage sind, sequentielle Daten durch die Aufrechterhaltung einer Form des Gedächtnisses zu verarbeiten.

RNNs waren jedoch nicht ohne Einschränkungen. Sie kämpften mit langfristigen Abhängigkeiten aufgrund des Problems des verschwindenden Gradienten, bei dem Informationen über lange Sequenzen verloren gehen, was es schwierig macht, Korrelationen zwischen entfernten Ereignissen zu lernen.

Long Short-Term Memory Networks (LSTMs), eingeführt von Sepp Hochreiter und Jürgen Schmidhuber im Jahr 1997hat dieses Problem mit einer ausgefeilteren Architektur gelöst. LSTMs verfügen über Tore, die den Informationsfluss steuern: das Eingangstor, das Vergessenstor und das Ausgangstor. Diese Tore bestimmen, welche Informationen gespeichert, aktualisiert oder verworfen werden, wodurch das Netzwerk langfristige Abhängigkeiten bewahren und die Leistung bei einer Vielzahl von NLP-Aufgaben deutlich verbessern kann.

Die Transformer-Architektur

Die NLP-Landschaft erfuhr mit der Einführung des Transformer-Modells im wegweisenden Artikel „Attention is All You Need“ von Vaswani et al. im Jahr 2017 einen dramatischen Wandel. Die Transformer-Architektur weicht von der sequentiellen Verarbeitung von RNNs und LSTMs ab und nutzt stattdessen einen Mechanismus namens „Self-Attention“, um den Einfluss verschiedener Teile der Eingabedaten abzuwägen.

Die Kernidee des Transformators besteht darin, dass er die gesamten Eingabedaten auf einmal und nicht nacheinander verarbeiten kann. Dies ermöglicht eine wesentlich stärkere Parallelisierung und damit eine deutliche Steigerung der Trainingsgeschwindigkeit. Der Selbstaufmerksamkeitsmechanismus ermöglicht es dem Modell, sich bei der Verarbeitung auf verschiedene Teile des Textes zu konzentrieren, was für das Verständnis des Kontexts und der Beziehungen zwischen Wörtern, unabhängig von ihrer Position im Text, von entscheidender Bedeutung ist.

Encoder und Decoder in Transformatoren:

Im ursprünglichen Transformer-Modell, wie im Artikel beschrieben „Aufmerksamkeit ist alles, was Sie brauchen” von Vaswani et al. ist die Architektur in zwei Hauptteile unterteilt: den Encoder und den Decoder. Beide Teile bestehen aus Schichten, die die gleiche allgemeine Struktur haben, aber unterschiedlichen Zwecken dienen.

Encoder:

Rollen: Die Aufgabe des Encoders besteht darin, die Eingabedaten zu verarbeiten und eine Darstellung zu erstellen, die die Beziehungen zwischen den Elementen (wie Wörter in einem Satz) erfasst. Dieser Teil des Transformators generiert keine neuen Inhalte; er transformiert lediglich die Eingabe in einen Zustand, den der Decoder verwenden kann.
Funktionalität: Jede Encoderschicht verfügt über Selbstaufmerksamkeitsmechanismen und vorwärtsgerichtete neuronale Netze. Der Selbstaufmerksamkeitsmechanismus ermöglicht es jeder Position im Encoder, alle Positionen in der vorherigen Ebene des Encoders zu berücksichtigen – so kann er den Kontext um jedes Wort lernen.
Kontextuelle Einbettungen: Die Ausgabe des Encoders ist eine Reihe von Vektoren, die die Eingabesequenz in einem hochdimensionalen Raum darstellen. Diese Vektoren werden oft als kontextuelle Einbettungen bezeichnet, da sie nicht nur die einzelnen Wörter, sondern auch deren Kontext innerhalb des Satzes kodieren.

Decoder:

Rollen: Die Aufgabe des Decoders besteht darin, Ausgabedaten sequenziell, also Stück für Stück, basierend auf den vom Encoder empfangenen Eingaben und den bisher generierten Daten zu generieren. Er ist für Aufgaben wie die Textgenerierung konzipiert, bei denen die Reihenfolge der Generierung entscheidend ist.
Funktionalität: Decoder-Schichten enthalten ebenfalls Selbstaufmerksamkeitsmechanismen, sie sind jedoch maskiert, um zu verhindern, dass Positionen auf nachfolgende Positionen achten. Dadurch wird sichergestellt, dass die Vorhersage für eine bestimmte Position nur von bekannten Ausgaben an Positionen davor abhängen kann. Darüber hinaus enthalten die Decoderschichten einen zweiten Aufmerksamkeitsmechanismus, der sich um die Ausgabe des Encoders kümmert und den Kontext aus der Eingabe in den Generierungsprozess integriert.
Sequentielle Generierungsfunktionen: Dies bezieht sich auf die Fähigkeit des Decoders, eine Sequenz Element für Element zu generieren und dabei auf dem aufzubauen, was er bereits erzeugt hat. Wenn beispielsweise Text generiert wird, sagt der Decoder das nächste Wort basierend auf dem vom Encoder bereitgestellten Kontext und der bereits generierten Wortfolge voraus.

Jede dieser Unterebenen innerhalb des Encoders und Decoders ist entscheidend für die Fähigkeit des Modells, komplexe NLP-Aufgaben zu bewältigen. Insbesondere der Multi-Head-Attention-Mechanismus ermöglicht es dem Modell, sich selektiv auf verschiedene Teile der Sequenz zu konzentrieren und so ein umfassendes Kontextverständnis zu ermöglichen.

Beliebte Modelle mit Transformatoren

Nach dem anfänglichen Erfolg des Transformatormodells kam es zu einer Explosion neuer Modelle, die auf seiner Architektur basierten und jedes seine eigenen Innovationen und Optimierungen für unterschiedliche Aufgaben aufwies:

BERT (Bidirektionale Encoder-Darstellungen von Transformatoren): BERT wurde 2018 von Google eingeführt und revolutionierte die Art und Weise, wie kontextbezogene Informationen in Sprachdarstellungen integriert werden. Durch das Vortraining an einem großen Textkorpus mit einem maskierten Sprachmodell und der Vorhersage des nächsten Satzes erfasst BERT umfangreiche bidirektionale Kontexte und hat bei einer Vielzahl von NLP-Aufgaben hochmoderne Ergebnisse erzielt.

BERT

T5 (Text-zu-Text-Übertragungstransformator): Vorgestellt von Google im Jahr 2020T5 formuliert alle NLP-Aufgaben als Text-zu-Text-Problem um und verwendet dabei ein einheitliches textbasiertes Format. Dieser Ansatz vereinfacht die Anwendung des Modells auf eine Vielzahl von Aufgaben, einschließlich Übersetzung, Zusammenfassung und Beantwortung von Fragen.

T5-Architektur

GPT (Generativer vortrainierter Transformer): Entwickelt von OpenAIDie GPT-Modellreihe begann mit GPT-1 und erreichte GPT-4 im Jahr 2023. Diese Modelle werden durch unüberwachtes Lernen auf großen Textdatenmengen vorab trainiert und für verschiedene Aufgaben fein abgestimmt. Ihre Fähigkeit, kohärente und kontextrelevante Texte zu generieren, hat ihnen großen Einfluss sowohl auf akademische als auch auf kommerzielle KI-Anwendungen verschafft.

GPT-Architektur

Hier ist ein ausführlicherer Vergleich der Modelle T5, BERT und GPT in verschiedenen Dimensionen:

1. Tokenisierung und Wortschatz

BERT: Verwendet die WordPiece-Tokenisierung mit einer Vokabulargröße von etwa 30,000 Token.
GPT: Verwendet Byte Pair Encoding (BPE) mit einer großen Vokabulargröße (z. B. hat GPT-3 eine Vokabulargröße von 175,000).
T5: Nutzt die SentencePiece-Tokenisierung, die den Text als Rohtext behandelt und keine vorsegmentierten Wörter erfordert.

2. Ziele vor dem Training

BERT: Masked Language Modeling (MLM) und Next Sentence Prediction (NSP).
GPT: Causal Language Modeling (CLM), bei dem jedes Token das nächste Token in der Sequenz vorhersagt.
T5: Verwendet ein Entrauschungsziel, bei dem zufällige Textabschnitte durch ein Sentinel-Token ersetzt werden und das Modell lernt, den Originaltext zu rekonstruieren.

3. Eingabedarstellung

BERT: Token-, Segment- und Positionseinbettungen werden kombiniert, um die Eingabe darzustellen.
GPT: Token- und Positionseinbettungen werden kombiniert (keine Segmenteinbettungen, da es nicht für Satzpaaraufgaben konzipiert ist).
T5: Nur Token-Einbettungen mit hinzugefügten relativen Positionskodierungen während der Aufmerksamkeitsvorgänge.

4. Aufmerksamkeitsmechanismus

BERT: Verwendet absolute Positionskodierungen und ermöglicht jedem Token, sich um alle Token links und rechts zu kümmern (bidirektionale Aufmerksamkeit).
GPT: Verwendet ebenfalls absolute Positionskodierungen, beschränkt die Aufmerksamkeit jedoch nur auf vorherige Token (unidirektionale Aufmerksamkeit).
T5: Implementiert eine Variante des Transformators, die relative Positionsverzerrungen anstelle von Positionseinbettungen verwendet.

5. Modellarchitektur

BERT: Nur-Encoder-Architektur mit mehreren Schichten von Transformatorblöcken.
GPT: Nur-Decoder-Architektur, ebenfalls mit mehreren Schichten, aber für generative Aufgaben konzipiert.
T5: Encoder-Decoder-Architektur, bei der sowohl der Encoder als auch der Decoder aus Transformatorschichten bestehen.

6. Feinabstimmungsansatz

BERT: Passt die endgültigen verborgenen Zustände des vorab trainierten Modells für nachgelagerte Aufgaben mit zusätzlichen Ausgabeebenen nach Bedarf an.
GPT: Fügt eine lineare Ebene über dem Transformator hinzu und optimiert die nachgelagerte Aufgabe unter Verwendung desselben kausalen Sprachmodellierungsziels.
T5: Konvertiert alle Aufgaben in ein Text-zu-Text-Format, wobei das Modell so abgestimmt wird, dass es die Zielsequenz aus der Eingabesequenz generiert.

7. Trainingsdaten und -skala

BERT: Auf BooksCorpus und der englischen Wikipedia geschult.
GPT: GPT-2 und GPT-3 wurden anhand verschiedener aus dem Internet extrahierter Datensätze trainiert, wobei GPT-3 anhand eines noch größeren Korpus namens Common Crawl trainiert wurde.
T5: Ausgebildet am „Colossal Clean Crawled Corpus“, einer großen und sauberen Version des Common Crawl.

8. Umgang mit Kontext und Bidirektionalität

BERT: Entwickelt, um den Kontext in beide Richtungen gleichzeitig zu verstehen.
GPT: Geschult, den Kontext in einer Vorwärtsrichtung (von links nach rechts) zu verstehen.
T5: Kann bidirektionalen Kontext im Encoder und unidirektional im Decoder modellieren, geeignet für Sequenz-zu-Sequenz-Aufgaben.

9. Anpassungsfähigkeit an nachgelagerte Aufgaben

BERT: Erfordert aufgabenspezifische Kopfebenen und Feinabstimmung für jede nachgelagerte Aufgabe.
GPT: Ist generativer Natur und kann mit minimalen Änderungen an seiner Struktur zur Ausführung von Aufgaben aufgefordert werden.
T5: Behandelt jede Aufgabe als „Text-zu-Text“-Problem und macht sie dadurch von Natur aus flexibel und anpassungsfähig an neue Aufgaben.

10. Interpretierbarkeit und Erklärbarkeit

BERT: Die bidirektionale Natur bietet umfangreiche kontextbezogene Einbettungen, kann jedoch schwieriger zu interpretieren sein.
GPT: Der unidirektionale Kontext ist möglicherweise einfacher zu verfolgen, es fehlt ihm jedoch die Tiefe des bidirektionalen Kontexts.
T5: Das Encoder-Decoder-Framework bietet eine klare Trennung der Verarbeitungsschritte, kann jedoch aufgrund seiner generativen Natur komplex zu analysieren sein.

Der Einfluss von Transformern auf NLP

Transformer haben den Bereich des NLP revolutioniert, indem sie es Modellen ermöglicht haben, Datensequenzen parallel zu verarbeiten, was die Geschwindigkeit und Effizienz des Trainings großer neuronaler Netze drastisch erhöht hat. Sie führten den Selbstaufmerksamkeitsmechanismus ein, der es Modellen ermöglicht, die Bedeutung jedes Teils der Eingabedaten unabhängig von der Entfernung innerhalb der Sequenz abzuwägen. Dies führte zu beispiellosen Verbesserungen bei einer Vielzahl von NLP-Aufgaben, einschließlich, aber nicht beschränkt auf, Übersetzung, Beantwortung von Fragen und Textzusammenfassung.

Die Forschung verschiebt weiterhin die Grenzen dessen, was transformatorbasierte Modelle leisten können. GPT-4 und seine Zeitgenossen sind nicht nur größer, sondern aufgrund der Fortschritte in der Architektur und den Trainingsmethoden auch effizienter und leistungsfähiger. Techniken wie Few-Shot-Learning, bei dem Modelle Aufgaben mit minimalen Beispielen ausführen, und Methoden für effektiveres Transferlernen stehen im Vordergrund der aktuellen Forschung.

Die auf Transformatoren basierenden Sprachmodelle lernen aus Daten, die Vorurteile enthalten können. Forscher und Praktiker arbeiten aktiv daran, diese Vorurteile zu identifizieren, zu verstehen und abzumildern. Die Techniken reichen von kuratierten Trainingsdatensätzen bis hin zu Anpassungen nach dem Training, die auf Fairness und Neutralität abzielen.

Verwandte Themen:Nlp Transformer

Als nächstes

Der AI Pin von Humane ist ein Fortschritt in der tragbaren Technologie, hat aber auch Nachteile

Verpassen Sie nicht

Benutzerdefinierte GPTs sind da und werden sich auf die gesamte KI auswirken

Aayush Mittal

Ich habe die letzten fünf Jahre damit verbracht, in die faszinierende Welt des maschinellen Lernens und des Deep Learning einzutauchen. Meine Leidenschaft und mein Fachwissen haben dazu geführt, dass ich an über 50 verschiedenen Software-Engineering-Projekten mitgewirkt habe, mit besonderem Schwerpunkt auf KI/ML. Meine anhaltende Neugier hat mich auch zur Verarbeitung natürlicher Sprache geführt, einem Bereich, den ich gerne weiter erforschen möchte.