Vernetzen Sie sich mit uns

KĂŒnstliche Intelligenz

NLP-Aufstieg mit Transformer-Modellen | Eine umfassende Analyse von T5, BERT und GPT

mm
Leitfaden zu NLP

Die Verarbeitung natĂŒrlicher Sprache (Natural Language Processing, NLP) hat in den letzten Jahren einige der einflussreichsten DurchbrĂŒche erlebt, vor allem aufgrund der Transformer-Architektur. Diese DurchbrĂŒche haben nicht nur die FĂ€higkeiten von Maschinen, menschliche Sprache zu verstehen und zu erzeugen, verbessert, sondern auch die Landschaft zahlreicher Anwendungen neu definiert, von Suchmaschinen bis hin zu Konversations-KI.

Um die Bedeutung von Transformatoren vollstĂ€ndig zu verstehen, mĂŒssen wir zunĂ€chst auf die VorgĂ€nger und Bausteine ​​zurĂŒckblicken, die den Grundstein fĂŒr diese revolutionĂ€re Architektur legten.

FrĂŒhe NLP-Techniken: Die Grundlagen vor Transformern

Worteinbettungen: Von One-Hot zu Word2Vec

In traditionellen NLP-AnsĂ€tzen erfolgte die Darstellung von Wörtern oft wörtlich und es fehlte jegliches semantisches oder syntaktisches VerstĂ€ndnis. One-Hot-Codierung ist ein Paradebeispiel fĂŒr diese EinschrĂ€nkung.

One-Hot-Codierung ist ein Prozess, bei dem kategoriale Variablen in eine binĂ€re Vektordarstellung umgewandelt werden, bei der nur ein Bit „heiß“ (auf 1 gesetzt) ​​ist, wĂ€hrend alle anderen „kalt“ (auf 0 gesetzt) ​​sind. Im NLP-Kontext wird jedes Wort in einem Vokabular durch One-Hot-Vektoren dargestellt, wobei jeder Vektor der GrĂ¶ĂŸe des Vokabulars entspricht und jedes Wort durch einen Vektor mit nur Nullen und einer 0 am Index dargestellt wird, der diesem Wort entspricht die Vokabelliste.

Beispiel fĂŒr One-Hot-Codierung

Angenommen, wir haben einen winzigen Wortschatz mit nur fĂŒnf Wörtern: [„König“, „Königin“, „Mann“, „Frau“, „Kind“]. Die One-Hot-Codierungsvektoren fĂŒr jedes Wort wĂŒrden so aussehen:

  • „König“ -> [1, 0, 0, 0, 0]
  • „Königin“ -> [0, 1, 0, 0, 0]
  • „Mann“ -> [0, 0, 1, 0, 0]
  • „Frau“ -> [0, 0, 0, 1, 0]
  • „Kind“ -> [0, 0, 0, 0, 1]

Mathematische Darstellung

Wenn wir bezeichnen wie die GrĂ¶ĂŸe unseres Wortschatzes und als One-Hot-Vektordarstellung des i-ten Wortes im Vokabular, die mathematische Darstellung von wĂ€re:

wobei die i-te Position 1 ist und alle anderen Positionen 0 sind.

Der grĂ¶ĂŸte Nachteil der One-Hot-Codierung besteht darin, dass jedes Wort als isolierte Einheit behandelt wird, ohne Bezug zu anderen Wörtern. Dies fĂŒhrt zu spĂ€rlichen und hochdimensionalen Vektoren, die keine semantischen oder syntaktischen Informationen ĂŒber die Wörter erfassen.

Die EinfĂŒhrung von Worteinbettungen, insbesondere Word2Vec, war ein entscheidender Moment im NLP. Word2013Vec wurde 2 von einem Team bei Google unter der Leitung von Tomas Mikolov entwickelt und stellte Wörter in einem dichten Vektorraum dar und erfasste syntaktische und semantische Wortbeziehungen basierend auf ihrem Kontext in großen Textkorpora.

Im Gegensatz zur One-Hot-Codierung erzeugt Word2Vec dichte Vektoren, typischerweise mit Hunderten von Dimensionen. Wörter, die in Ă€hnlichen Kontexten vorkommen, wie zum Beispiel „König“ und „Königin“, haben Vektordarstellungen, die im Vektorraum nĂ€her beieinander liegen.

Zur Veranschaulichung nehmen wir an, wir haben ein Word2Vec-Modell trainiert und stellen nun Wörter in einem hypothetischen dreidimensionalen Raum dar. Die Einbettungen (die normalerweise mehr als dreidimensional sind, hier aber der Einfachheit halber reduziert wurden) könnten etwa so aussehen:

  • „König“ -> [0.2, 0.1, 0.9]
  • „Königin“ -> [0.21, 0.13, 0.85]
  • „Mann“ -> [0.4, 0.3, 0.2]
  • „Frau“ -> [0.41, 0.33, 0.27]
  • „Kind“ -> [0.5, 0.5, 0.1]

Obwohl diese Zahlen fiktiv sind, veranschaulichen sie, dass Àhnliche Wörter Àhnliche Vektoren haben.

Mathematische Darstellung

Wenn wir die Word2Vec-Einbettung eines Wortes darstellen als , und unser Einbettungsraum hat Dimensionen also kann dargestellt werden als:

Semantische Beziehungen

Word2Vec kann sogar komplexe ZusammenhĂ€nge, wie zum Beispiel Analogien, erfassen. Die berĂŒhmte Beziehung, die durch Word2Vec-Einbettungen erfasst wird, lautet beispielsweise:

Vektor („König“) – Vektor („Mann“) + Vektor („Frau“)≈Vektor („Königin“)

Dies ist möglich, weil Word2Vec die Wortvektoren wÀhrend des Trainings so anpasst, dass Wörter, die im Korpus gemeinsame Kontexte haben, eng im Vektorraum positioniert sind.

Word2Vec verwendet zwei Hauptarchitekturen, um eine verteilte Darstellung von Wörtern zu erstellen: Continuous Bag-of-Words (CBOW) und Skip-Gram. CBOW sagt ein Zielwort anhand der umgebenden Kontextwörter voraus, wÀhrend Skip-Gram das Gegenteil tut und Kontextwörter anhand eines Zielworts vorhersagt. Dies ermöglichte es Maschinen, die Verwendung und Bedeutung von Wörtern differenzierter zu verstehen.

Sequenzmodellierung: RNNs und LSTMs

Mit fortschreitendem Fachgebiet verlagerte sich der Schwerpunkt auf das Verstehen von Textsequenzen, was fĂŒr Aufgaben wie maschinelle Übersetzung, Textzusammenfassung und Stimmungsanalyse von entscheidender Bedeutung war. Rekurrente neuronale Netze (RNNs) wurden zum Grundstein fĂŒr diese Anwendungen, da sie in der Lage sind, sequentielle Daten durch die Aufrechterhaltung einer Form des GedĂ€chtnisses zu verarbeiten.

RNNs waren jedoch nicht ohne EinschrĂ€nkungen. Sie kĂ€mpften mit langfristigen AbhĂ€ngigkeiten aufgrund des Problems des verschwindenden Gradienten, bei dem Informationen ĂŒber lange Sequenzen verloren gehen, was es schwierig macht, Korrelationen zwischen entfernten Ereignissen zu lernen.

Long Short-Term Memory Networks (LSTMs), eingefĂŒhrt von Sepp Hochreiter und JĂŒrgen Schmidhuber im Jahr 1997hat dieses Problem mit einer ausgefeilteren Architektur gelöst. LSTMs verfĂŒgen ĂŒber Tore, die den Informationsfluss steuern: das Eingangstor, das Vergessenstor und das Ausgangstor. Diese Tore bestimmen, welche Informationen gespeichert, aktualisiert oder verworfen werden, wodurch das Netzwerk langfristige AbhĂ€ngigkeiten bewahren und die Leistung bei einer Vielzahl von NLP-Aufgaben deutlich verbessern kann.

Die Transformer-Architektur

Die NLP-Landschaft erfuhr mit der EinfĂŒhrung des Transformer-Modells im wegweisenden Artikel „Attention is All You Need“ von Vaswani et al. im Jahr 2017 einen dramatischen Wandel. Die Transformer-Architektur weicht von der sequentiellen Verarbeitung von RNNs und LSTMs ab und nutzt stattdessen einen Mechanismus namens „Self-Attention“, um den Einfluss verschiedener Teile der Eingabedaten abzuwĂ€gen.

Die Kernidee des Transformators besteht darin, dass er die gesamten Eingabedaten auf einmal und nicht nacheinander verarbeiten kann. Dies ermöglicht eine wesentlich stĂ€rkere Parallelisierung und damit eine deutliche Steigerung der Trainingsgeschwindigkeit. Der Selbstaufmerksamkeitsmechanismus ermöglicht es dem Modell, sich bei der Verarbeitung auf verschiedene Teile des Textes zu konzentrieren, was fĂŒr das VerstĂ€ndnis des Kontexts und der Beziehungen zwischen Wörtern, unabhĂ€ngig von ihrer Position im Text, von entscheidender Bedeutung ist.

Encoder und Decoder in Transformatoren:

Im ursprĂŒnglichen Transformer-Modell, wie im Artikel beschrieben „Aufmerksamkeit ist alles, was Sie brauchen” von Vaswani et al. ist die Architektur in zwei Hauptteile unterteilt: den Encoder und den Decoder. Beide Teile bestehen aus Schichten, die die gleiche allgemeine Struktur haben, aber unterschiedlichen Zwecken dienen.

Encoder:

  • Rollen: Die Aufgabe des Encoders besteht darin, die Eingabedaten zu verarbeiten und eine Darstellung zu erstellen, die die Beziehungen zwischen den Elementen (wie Wörter in einem Satz) erfasst. Dieser Teil des Transformators generiert keine neuen Inhalte; er transformiert lediglich die Eingabe in einen Zustand, den der Decoder verwenden kann.
  • FunktionalitĂ€t: Jede Encoderschicht verfĂŒgt ĂŒber Selbstaufmerksamkeitsmechanismen und vorwĂ€rtsgerichtete neuronale Netze. Der Selbstaufmerksamkeitsmechanismus ermöglicht es jeder Position im Encoder, alle Positionen in der vorherigen Ebene des Encoders zu berĂŒcksichtigen – so kann er den Kontext um jedes Wort lernen.
  • Kontextuelle Einbettungen: Die Ausgabe des Encoders ist eine Reihe von Vektoren, die die Eingabesequenz in einem hochdimensionalen Raum darstellen. Diese Vektoren werden oft als kontextuelle Einbettungen bezeichnet, da sie nicht nur die einzelnen Wörter, sondern auch deren Kontext innerhalb des Satzes kodieren.

Decoder:

  • Rollen: Die Aufgabe des Decoders besteht darin, Ausgabedaten sequenziell, also StĂŒck fĂŒr StĂŒck, basierend auf den vom Encoder empfangenen Eingaben und den bisher generierten Daten zu generieren. Er ist fĂŒr Aufgaben wie die Textgenerierung konzipiert, bei denen die Reihenfolge der Generierung entscheidend ist.
  • FunktionalitĂ€t: Decoder-Schichten enthalten ebenfalls Selbstaufmerksamkeitsmechanismen, sie sind jedoch maskiert, um zu verhindern, dass Positionen auf nachfolgende Positionen achten. Dadurch wird sichergestellt, dass die Vorhersage fĂŒr eine bestimmte Position nur von bekannten Ausgaben an Positionen davor abhĂ€ngen kann. DarĂŒber hinaus enthalten die Decoderschichten einen zweiten Aufmerksamkeitsmechanismus, der sich um die Ausgabe des Encoders kĂŒmmert und den Kontext aus der Eingabe in den Generierungsprozess integriert.
  • Sequentielle Generierungsfunktionen: Dies bezieht sich auf die FĂ€higkeit des Decoders, eine Sequenz Element fĂŒr Element zu generieren und dabei auf dem aufzubauen, was er bereits erzeugt hat. Wenn beispielsweise Text generiert wird, sagt der Decoder das nĂ€chste Wort basierend auf dem vom Encoder bereitgestellten Kontext und der bereits generierten Wortfolge voraus.

Jede dieser Unterebenen innerhalb des Encoders und Decoders ist entscheidend fĂŒr die FĂ€higkeit des Modells, komplexe NLP-Aufgaben zu bewĂ€ltigen. Insbesondere der Multi-Head-Attention-Mechanismus ermöglicht es dem Modell, sich selektiv auf verschiedene Teile der Sequenz zu konzentrieren und so ein umfassendes KontextverstĂ€ndnis zu ermöglichen.

Beliebte Modelle mit Transformatoren

Nach dem anfĂ€nglichen Erfolg des Transformatormodells kam es zu einer Explosion neuer Modelle, die auf seiner Architektur basierten und jedes seine eigenen Innovationen und Optimierungen fĂŒr unterschiedliche Aufgaben aufwies:

BERT (Bidirektionale Encoder-Darstellungen von Transformatoren): BERT wurde 2018 von Google eingefĂŒhrt und revolutionierte die Art und Weise, wie kontextbezogene Informationen in Sprachdarstellungen integriert werden. Durch das Vortraining an einem großen Textkorpus mit einem maskierten Sprachmodell und der Vorhersage des nĂ€chsten Satzes erfasst BERT umfangreiche bidirektionale Kontexte und hat bei einer Vielzahl von NLP-Aufgaben hochmoderne Ergebnisse erzielt.

BERT

BERT

T5 (Text-zu-Text-Übertragungstransformator): Vorgestellt von Google im Jahr 2020T5 formuliert alle NLP-Aufgaben als Text-zu-Text-Problem um und verwendet dabei ein einheitliches textbasiertes Format. Dieser Ansatz vereinfacht die Anwendung des Modells auf eine Vielzahl von Aufgaben, einschließlich Übersetzung, Zusammenfassung und Beantwortung von Fragen.

t5 Architektur

T5-Architektur

GPT (Generativer vortrainierter Transformer): Entwickelt von OpenAIDie GPT-Modellreihe begann mit GPT-1 und erreichte GPT-4 im Jahr 2023. Diese Modelle werden durch unĂŒberwachtes Lernen auf großen Textdatenmengen vorab trainiert und fĂŒr verschiedene Aufgaben fein abgestimmt. Ihre FĂ€higkeit, kohĂ€rente und kontextrelevante Texte zu generieren, hat ihnen großen Einfluss sowohl auf akademische als auch auf kommerzielle KI-Anwendungen verschafft.

GPT

GPT-Architektur

Hier ist ein ausfĂŒhrlicherer Vergleich der Modelle T5, BERT und GPT in verschiedenen Dimensionen:

1. Tokenisierung und Wortschatz

  • BERT: Verwendet die WordPiece-Tokenisierung mit einer VokabulargrĂ¶ĂŸe von etwa 30,000 Token.
  • GPT: Verwendet Byte Pair Encoding (BPE) mit einer großen VokabulargrĂ¶ĂŸe (z. B. hat GPT-3 eine VokabulargrĂ¶ĂŸe von 175,000).
  • T5: Nutzt die SentencePiece-Tokenisierung, die den Text als Rohtext behandelt und keine vorsegmentierten Wörter erfordert.

2. Ziele vor dem Training

  • BERT: Masked Language Modeling (MLM) und Next Sentence Prediction (NSP).
  • GPT: Causal Language Modeling (CLM), bei dem jedes Token das nĂ€chste Token in der Sequenz vorhersagt.
  • T5: Verwendet ein Entrauschungsziel, bei dem zufĂ€llige Textabschnitte durch ein Sentinel-Token ersetzt werden und das Modell lernt, den Originaltext zu rekonstruieren.

3. Eingabedarstellung

  • BERT: Token-, Segment- und Positionseinbettungen werden kombiniert, um die Eingabe darzustellen.
  • GPT: Token- und Positionseinbettungen werden kombiniert (keine Segmenteinbettungen, da es nicht fĂŒr Satzpaaraufgaben konzipiert ist).
  • T5: Nur Token-Einbettungen mit hinzugefĂŒgten relativen Positionskodierungen wĂ€hrend der AufmerksamkeitsvorgĂ€nge.

4. Aufmerksamkeitsmechanismus

  • BERT: Verwendet absolute Positionskodierungen und ermöglicht jedem Token, sich um alle Token links und rechts zu kĂŒmmern (bidirektionale Aufmerksamkeit).
  • GPT: Verwendet ebenfalls absolute Positionskodierungen, beschrĂ€nkt die Aufmerksamkeit jedoch nur auf vorherige Token (unidirektionale Aufmerksamkeit).
  • T5: Implementiert eine Variante des Transformators, die relative Positionsverzerrungen anstelle von Positionseinbettungen verwendet.

5. Modellarchitektur

  • BERT: Nur-Encoder-Architektur mit mehreren Schichten von Transformatorblöcken.
  • GPT: Nur-Decoder-Architektur, ebenfalls mit mehreren Schichten, aber fĂŒr generative Aufgaben konzipiert.
  • T5: Encoder-Decoder-Architektur, bei der sowohl der Encoder als auch der Decoder aus Transformatorschichten bestehen.

6. Feinabstimmungsansatz

  • BERT: Passt die endgĂŒltigen verborgenen ZustĂ€nde des vorab trainierten Modells fĂŒr nachgelagerte Aufgaben mit zusĂ€tzlichen Ausgabeebenen nach Bedarf an.
  • GPT: FĂŒgt eine lineare Ebene ĂŒber dem Transformator hinzu und optimiert die nachgelagerte Aufgabe unter Verwendung desselben kausalen Sprachmodellierungsziels.
  • T5: Konvertiert alle Aufgaben in ein Text-zu-Text-Format, wobei das Modell so abgestimmt wird, dass es die Zielsequenz aus der Eingabesequenz generiert.

7. Trainingsdaten und -skala

  • BERT: Auf BooksCorpus und der englischen Wikipedia geschult.
  • GPT: GPT-2 und GPT-3 wurden anhand verschiedener aus dem Internet extrahierter DatensĂ€tze trainiert, wobei GPT-3 anhand eines noch grĂ¶ĂŸeren Korpus namens Common Crawl trainiert wurde.
  • T5: Ausgebildet am „Colossal Clean Crawled Corpus“, einer großen und sauberen Version des Common Crawl.

8. Umgang mit Kontext und BidirektionalitÀt

  • BERT: Entwickelt, um den Kontext in beide Richtungen gleichzeitig zu verstehen.
  • GPT: Geschult, den Kontext in einer VorwĂ€rtsrichtung (von links nach rechts) zu verstehen.
  • T5: Kann bidirektionalen Kontext im Encoder und unidirektional im Decoder modellieren, geeignet fĂŒr Sequenz-zu-Sequenz-Aufgaben.

9. AnpassungsfÀhigkeit an nachgelagerte Aufgaben

  • BERT: Erfordert aufgabenspezifische Kopfebenen und Feinabstimmung fĂŒr jede nachgelagerte Aufgabe.
  • GPT: Ist generativer Natur und kann mit minimalen Änderungen an seiner Struktur zur AusfĂŒhrung von Aufgaben aufgefordert werden.
  • T5: Behandelt jede Aufgabe als „Text-zu-Text“-Problem und macht sie dadurch von Natur aus flexibel und anpassungsfĂ€hig an neue Aufgaben.

10. Interpretierbarkeit und ErklÀrbarkeit

  • BERT: Die bidirektionale Natur bietet umfangreiche kontextbezogene Einbettungen, kann jedoch schwieriger zu interpretieren sein.
  • GPT: Der unidirektionale Kontext ist möglicherweise einfacher zu verfolgen, es fehlt ihm jedoch die Tiefe des bidirektionalen Kontexts.
  • T5: Das Encoder-Decoder-Framework bietet eine klare Trennung der Verarbeitungsschritte, kann jedoch aufgrund seiner generativen Natur komplex zu analysieren sein.

Der Einfluss von Transformern auf NLP

Transformer haben den Bereich des NLP revolutioniert, indem sie es Modellen ermöglicht haben, Datensequenzen parallel zu verarbeiten, was die Geschwindigkeit und Effizienz des Trainings großer neuronaler Netze drastisch erhöht hat. Sie fĂŒhrten den Selbstaufmerksamkeitsmechanismus ein, der es Modellen ermöglicht, die Bedeutung jedes Teils der Eingabedaten unabhĂ€ngig von der Entfernung innerhalb der Sequenz abzuwĂ€gen. Dies fĂŒhrte zu beispiellosen Verbesserungen bei einer Vielzahl von NLP-Aufgaben, einschließlich, aber nicht beschrĂ€nkt auf, Übersetzung, Beantwortung von Fragen und Textzusammenfassung.

Die Forschung verschiebt weiterhin die Grenzen dessen, was transformatorbasierte Modelle leisten können. GPT-4 und seine Zeitgenossen sind nicht nur grĂ¶ĂŸer, sondern aufgrund der Fortschritte in der Architektur und den Trainingsmethoden auch effizienter und leistungsfĂ€higer. Techniken wie Few-Shot-Learning, bei dem Modelle Aufgaben mit minimalen Beispielen ausfĂŒhren, und Methoden fĂŒr effektiveres Transferlernen stehen im Vordergrund der aktuellen Forschung.

Die auf Transformatoren basierenden Sprachmodelle lernen aus Daten, die Vorurteile enthalten können. Forscher und Praktiker arbeiten aktiv daran, diese Vorurteile zu identifizieren, zu verstehen und abzumildern. Die Techniken reichen von kuratierten TrainingsdatensÀtzen bis hin zu Anpassungen nach dem Training, die auf Fairness und NeutralitÀt abzielen.

Ich habe die letzten fĂŒnf Jahre damit verbracht, in die faszinierende Welt des maschinellen Lernens und des Deep Learning einzutauchen. Meine Leidenschaft und mein Fachwissen haben dazu gefĂŒhrt, dass ich an ĂŒber 50 verschiedenen Software-Engineering-Projekten mitgewirkt habe, mit besonderem Schwerpunkt auf KI/ML. Meine anhaltende Neugier hat mich auch zur Verarbeitung natĂŒrlicher Sprache gefĂŒhrt, einem Bereich, den ich gerne weiter erforschen möchte.