Künstliche Intelligenz

GPT-3: Few Shot Learning für Sprachmodell?

Veröffentlicht August 24, 2023

Kunal Kejriwal

In den letzten Jahren erlebte die KI- und ML-Branche einen kometenhaften Aufstieg in der Entwicklung und Anwendung der NLP-Systeme, da Forscher in der Lage waren, NLP-Praktiken auf äußerst flexible und aufgabenunabhängige Weise für nachgelagerte Übertragungsaufgaben zu implementieren.

Zunächst waren es die einschichtigen Darstellungen, die Wortvektoren nutzten und dann in die aufgabenspezifische Architektur eingespeist wurden. Als nächstes war es die RNN-Architektur, die mehrschichtige Darstellungen und kontextbezogene Zustände nutzte, um bessere Darstellungen zu bilden. Und in jüngster Zeit verfügen wir über Transfersprachmodelle oder vorab trainierte wiederkehrende Modelle, die durch die Feinabstimmung dieser Netzwerke die Notwendigkeit aufgabenspezifischer Architekturen vollständig überflüssig gemacht haben.

Die Transfersprachmodelle haben sich als wichtiger Wendepunkt in der NLP-Branche erwiesen, da sie zu enormen Fortschritten bei anspruchsvollen Aufgaben wie der Beantwortung von Fragen, dem Lesen von Verständnissen oder Textblöcken, der Textkonsequenz und vielem mehr geführt haben.

Trotz ihrer Vorteile haben Übertragungssprachenmodelle jedoch eine große Einschränkung, da sie eine aufgabenspezifische Feinabstimmung oder einen aufgabenspezifischen Datensatz erfordern, um die gewünschte Leistung bei einer Aufgabe zu erzielen. Darüber hinaus erfordern Transfersprachmodelle von Entwicklern auch eine Feinabstimmung der Datensätze auf Hunderttausende Beispiele, die für eine bestimmte Aufgabe spezifisch sind.

Es versteht sich von selbst, dass die Abschaffung der Anforderungen an aufgabenspezifische Datensätze und die aufgabenspezifische Feinabstimmung äußerst wünschenswert und aus zahlreichen Gründen für die NLP-Branche von Vorteil sein wird.

Probleme mit vorhandenen vorab trainierten Transfersprachenmodellen oder wiederkehrenden Modellen

Einschränkung der Praktikabilität und Anwendbarkeit

Erstens schränkt die Anforderung eines großen Datensatzes mit gekennzeichneten Daten für jede Aufgabe die Anwendbarkeit und Praktikabilität der Sprachmodelle ein. Sprachmodelle finden ihre Anwendung bei einer Vielzahl von Aufgaben, die von der Erstellung einer Kurzgeschichte über die Korrektur grammatikalischer Fehler bis hin zur Erstellung von Beispielen für ein Konzept reichen. Manchmal ist es eine anspruchsvolle Aufgabe, einen großen überwachten Datensatz mit gekennzeichneten Daten zu sammeln, insbesondere wenn der Vorgang für jede einzelne Aufgabe wiederholt werden muss.

Ausnutzung falscher Korrelationen in Trainingsdaten

Einschränkungen und Enge der Trainingsverteilung gepaart mit der Aussagekraft des Modells können zu einem grundsätzlichen Anstieg des Potenzials zur Ausnutzung falscher Korrelationen in Trainingsdaten führen. Die Möglichkeit, die Trainingsdaten zu nutzen, kann während der Feinabstimmung und des Pre-Training-Paradigmas zu Problemen führen, da die Übertragungssprachmodelle so konzipiert sind, dass sie während des Pre-Trainings eine große Menge an Informationen aufnehmen können.

Darüber hinaus haben Arbeiten an früheren Modellen gezeigt, dass große Modelle nicht jedes Mal zu einer besseren Verteilung führen. Darüber hinaus wurde auch darauf hingewiesen, dass die unter einem solchen Paradigma erreichte Generalisierung zu einer schlechten Leistung führen kann, vor allem weil das Modell sehr spezifisch für die Trainingsdaten ist und in Situationen außerhalb des Umfangs der Trainingsdaten keine gute Leistung erbringen kann.

Vergleich mit menschlichem Lernen

Schließlich benötigt der Mensch im Vergleich zu Transfersprachmodellen keinen großen Trainingsdatensatz, um die meisten Sprachaufgaben zu lernen. Meistens reicht eine kurze Anweisung in der natürlichen Sprache einer Person oder eine kleine Demonstration der Sprachaufgabe aus, damit ein Mensch eine Sprachaufgabe verstehen und mit einem gewissen Maß an Wettbewerbsfähigkeit ausführen kann.

Die Anpassungsfähigkeit des Menschen hat zahlreiche praktische Vorteile, da er entweder zwischen verschiedenen Fähigkeiten wechseln oder diese kombinieren kann, um bei einem Dialekt bessere Leistungen zu erbringen, was über die Möglichkeiten der aktuellen NLP-Systeme hinausgeht.

Bewältigung der Probleme mit Meta Learning und GPT-3

Eine mögliche Lösung für die oben genannten Herausforderungen ist der Einsatz von Meta-Learning, einem Konzept im modernen ML, das es einem Modell ermöglicht, beim Training einen größeren und breiteren Satz an Fähigkeiten und Fähigkeiten zur Mustererkennung zu entwickeln und diese erlernten Fähigkeiten dann während der Interferenz zur Anpassung zu nutzen schnell, oder erkennen Sie die erforderliche Aufgabe.

Meta Learning wird in der Sprachmodellarchitektur über eine Technik namens „ implementiert.kontextbezogenes Lernen”, das die Texteingabe eines vorab trainierten Sprachmodells als Aufgabenspezifikation verwendet. Dabei orientiert sich das Modell an einer Anweisung in natürlicher Sprache und verwendet möglicherweise sogar einige Demonstrationen. Anschließend wird erwartet, dass das Modell den Rest der Aufgabe erledigt, indem es die nächsten Schritte vorhersagt.

Das einzige große Problem beim Meta-Learning besteht darin, dass es zwar positives Potenzial gezeigt hat, dem Feinabstimmungsansatz in der Architektur natürlicher Sprache jedoch immer noch unterlegen ist und einer weiteren Verbesserung bedarf, um eine praktische Methode zur Bewältigung von Sprachaufgaben zu werden.

Neben dem Meta-Lernen erfreut sich eine weitere immer beliebter werdende Methode der Erweiterung der Kapazität von Transformer-Sprachmodellen. In den letzten Jahren ist bei Transfermodellen eine deutliche Kapazitätssteigerung zu verzeichnen RNSS18 Modell mit 100 Millionen Parametern, das DCLT18 Modell mit 300 Millionen Parametern, das RWC19 Modell mit 1.5 Milliarden Parametern, das SSP19 Modell mit 8 Milliarden Parametern, das RSR19 Modell mit 11 Milliarden Parametern, und das TUR20 Modell mit 17 Milliarden Parametern.

Die Erhöhung der Kapazität des Modells oder die Erhöhung der Parameter hat in der Vergangenheit zu Verbesserungen bei der Textsynthese geführt, und es gibt Hinweise darauf, dass der Protokollverlust, der mit nachgelagerten Aufgaben korreliert, ebenfalls einem gleichmäßigen Trend zur Verbesserung mit der Skalierung folgt.

Das bringt uns zum GPT-3-Modell mit über 175 Milliarden Parametern und war bei seiner Einführung das Übertragungssprachenmodell mit der höchsten Kapazität. Lassen Sie uns nun über das GPT-3-Modell sprechen.

Eine Einführung in das GPT-3-Modell

GPT-3 ist ein autoaggressives Sprachmodell mit über 175 Milliarden Parametern, das 2020 von OpenAI veröffentlicht wurde. GPT-3 wird auch als klassifiziert großes Sprachmodell dass das GPT-2-Modell genau wie sein Vorgänger ein reines Decoder-Deep-Learning-Transformermodell ist, das eine faltungsbasierte Architektur zur Generierung von Textdaten verwendet.

Das GPT-3-Modell misst seine eigenen Fähigkeiten zum Kontextlernen und das GPT-3-Modell wird anhand von über zwei Dutzend NLP-Datensätzen und mehreren neuartigen Aufgaben evaluiert. Für jede einzelne Aufgabe wird das GPT-3-Modell unter drei Bedingungen bewertet:

Few-Shot-Learning oder In-Context-Learning: In wenigen Schüssen lässt das GPT-3-Modell so viele Verteilungen zu, wie gut in das Kontextfenster des Modells passen.
One-Shot-Lernen: Beim One-Shot-Lernen ermöglicht das Modell nur eine Demonstration.
Zero-Shot-Lernen: Beim Zero-Shot-Lernen gibt es keine Demonstrationen und es gibt nur eine Anweisung in natürlicher Sprache, die dem Modell zugeführt wird.

Im Großen und Ganzen ist die GPT-3-Modell erreicht die gewünschte Leistung in den Zero-Shot- und One-Shot-Einstellungen, und in der Wenig-Shot-Einstellung übertrifft es in den meisten Fällen die hochmodernen Transfermodelle. Darüber hinaus schneidet das GPT-3-Modell gut in One-Shot- und Zero-Shot-Einstellungen bei Aufgaben in natürlicher Sprache ab, die darauf abzielen, spontanes Denken zu testen, oder schnelle Aufmerksamkeit erfordern, wie die Verwendung neuartiger Wörter nach einem Satz, das Entschlüsseln von Wörtern oder das Durchführen von Arithmetik Operationen. Wenn das GPT-3-Modell hingegen in einer Einstellung mit wenigen Aufnahmen betrieben wird, generiert es synthetische Nachrichtenartikel, die menschlichem Schreiben ähneln, wenn sie durch menschliche Bewerter geleitet werden.

GPT-3-Modell: Ansatz

Das GPT-3-Modell verwendet einen herkömmlichen Pre-Training-Ansatz, der Modell, Daten und Training umfasst, und ähnelt dem Pre-Training-Prozess, dem das RWC-19-Transfersprachenmodell folgt. Das GPT-3-Modell vergrößert die Modellgröße, die Datensatzgröße, die Vielfalt des Datensatzes und verlängert die Trainingsdauer.

Das Modell verwendet auch einen kontextbezogenen Lernansatz, der wiederum dem Ansatz des RWC-19-Modells ähnelt, die Dinge jedoch etwas optimiert, indem systematisch verschiedene Einstellungen für Lernmuster im Kontext des Datensatzes untersucht werden.

Beginnen wir also damit, diese Einstellungen zu erkunden und zu bewerten, wie sich das GTP-3-Modell bei verschiedenen Einstellungen verhält.

Feintuning

Die Feinabstimmung des Modells war der herkömmliche Ansatz bei der Übertragung Sprachmodelle, und dieser Ansatz beinhaltet die Aktualisierung der Gewichte eines vorab trainierten Modells, indem das Modell anhand eines überwachten Datensatzes trainiert wird, der spezifisch für die gewünschte Aufgabe ist, und während des Prozesses werden Hunderttausende beschriftete Beispiele verwendet.

Der Feinabstimmungsansatz ist vorteilhaft, da er über zahlreiche Benchmarks hinweg eine starke Leistung liefert. Andererseits besteht die Haupteinschränkung bei der Verwendung des Feinabstimmungsansatzes darin, dass für jede einzelne Aufgabe ein neuer und großer Datensatz erforderlich ist, das Potenzial besteht, falsche Merkmale des Trainingsdatensatzes auszunutzen, und möglicherweise zu einem unfairen Vergleich mit der menschlichen Leistung führen kann und schlechte Verallgemeinerung für Out-of-Distribution.

Der aktuelle Umfang des GPT-3-Modells implementiert den Feinabstimmungsansatz aufgrund seiner aufgabenunabhängigen Leistung nicht, obwohl die Feinabstimmung in Zukunft auf das GPT-3-Modell angewendet werden kann.

Wenige Schüsse

„Few Shot“ ist ein Begriff, der sich auf die Einstellung bezieht, in der dem GPT-3-Modell während der Interferenz als Konditionierung einige Demonstrationen der Aufgabe gegeben werden, die Gewichtungen des Modells jedoch nicht aktualisiert werden. In den wenigen Aufnahmeeinstellungen enthält der Datensatz normalerweise ein Beispiel mit einem Kontext und einer gewünschten Vervollständigung (z. B. einen französischen Satz und seine englische Übersetzung). Die Einstellung „Wenige Aufnahmen“ ergibt das Modell K Beispiele für Kontext und Vervollständigung, dann stellt es dem Modell einen endgültigen Kontext bereit und erwartet, dass das Modell die Vervollständigung bereitstellt.

Der Hauptvorteil der Few-Shot-Einstellung besteht darin, dass der Bedarf an aufgabenspezifischen Daten deutlich reduziert wird und auch das Potenzial, aus einem großen, fein abgestimmten Datensatz eine enge Verteilung zu lernen, geringer ist. Der Hauptnachteil des Few-Shot-Learnings besteht hingegen darin, dass die Ergebnisse der Few-Shot-Einstellung nicht den Anforderungen entsprechen und im Vergleich zu anderen modernen, fein abgestimmten Modellen deutlich schlechter ausfallen.

One Shot

Im One-Shot-Setting wird das Modell nur mit einer einzigen Demonstration bereitgestellt, der Rest ähnelt dem Few-Shot-Setting. Der Grund für die Relevanz des One-Shot-Settings in Transfersprachenmodellen liegt darin, dass One-Shot von allen drei Settings die Art und Weise, wie Aufgaben an Menschen kommuniziert werden, am besten widerspiegelt. Dies liegt daran, dass es bei den meisten Aufgaben üblich ist, eine Demonstration der Aufgabe zu geben, da es sonst schwierig sein könnte, den Kontext der Aufgabe zu verstehen.

Null Schuss

In der Zero-Shot-Einstellung gibt es keine Demonstrationen und das Modell erhält eine natürliche Sprachanweisung, die die Aufgabe beschreibt. Die Zero-Shot-Methode bietet höchsten Komfort, ist robust und vermeidet Fehlkorrelationen, ist aber auch die anspruchsvollste aller drei Einstellungen. Das liegt daran, dass es in manchen Fällen sogar für uns Menschen schwierig ist, den Kontext einer Aufgabe zu verstehen, ohne vorher eine Demonstration gesehen zu haben.

Ungeachtet dessen ist bei manchen Aufgaben die Zero-Shot-Einstellung diejenige, die der Art und Weise, wie Menschen natürliche Sprachaufgaben ausführen, am nächsten kommt.

Die obige Abbildung vergleicht die Einstellung „Wenige Aufnahmen“, „Eine Aufnahme“ und „Null Aufnahmen“ bei der Ausführung einer Aufgabe in natürlicher Sprache, bei der ein englischer Satz aufgenommen und ins Französische übersetzt wird.

GPT-3: Modellarchitektur

Das GPT-3-Modell verwendet dieselbe Architektur wie das GPT-2-Modell und umfasst Vornormalisierungs-, modifizierte Initialisierungs- und reversible Tokenisierungstechniken, wie sie beim GPT-Modell verwendet wurden, mit Ausnahme der Verwendung einer Alternative Strategie für lokal gebänderte, spärliche Aufmerksamkeitsmuster und abwechselnd dichte Schichten in den Transformatorschichten, ähnlich dem Sparse Transformer.

Um die Abhängigkeit der Modellleistung von der Modellgröße zu untersuchen, haben die Entwickler acht verschiedene Modellgrößen trainiert, die sich über drei verschiedene Größenordnungen von 8 Millionen bis über 125 Milliarden Parametern erstrecken. Die letzte davon wird als GPT-175-Modell bezeichnet . Frühere Arbeiten im Zusammenhang mit LLM-Modellen haben gezeigt, dass die Skalierung des Validierungsverlusts mit einer ausreichenden Menge an Trainingsdaten ein ungefähres Gesetz der glatten Potenz als Funktion der Größe sein sollte. Trainingsmodelle unterschiedlicher Größe ermöglichen es Entwicklern, die Hypothese sowohl für nachgelagerte Sprachaufgaben als auch für Validierungsverluste zu testen.

Die obige Abbildung vergleicht die Größe und Architektur der 8 verschiedenen Modelle, die für die Entwicklung von GPT-3 verwendet wurden. Hier definiert n(params) die Gesamtzahl der trainierbaren Muster, n(layers) definiert die Gesamtzahl der Schichten im Modell, d(model) definiert die Anzahl der Einheiten in jeder Schicht des Engpasses und d(head) definiert die Abmessungen jedes Aufmerksamkeitskopfes. Das Kontextfenster für jedes Modell ist mit 2048 Token gleich.

Um die Datenübertragung zwischen den Knoten zu minimieren, wird das Modell außerdem entlang der Tiefe und Breite der Dimensionen auf die GPUs aufgeteilt. Die Architekturparameter für jedes Modell wurden auf der Grundlage der Recheneffizienz und des Lastausgleichs ausgewählt, um die Präzision beim Layout der Modelle über GPUs hinweg zu maximieren.

Trainingsdatensätze

Typischerweise verwenden die großen Sprachmodelle Datensätze, die mit den jüngsten Entwicklungen erheblich erweitert wurden, und sie gipfeln im Common Crawl-Datensatz, der aus über einer Billion verschiedener Wörter besteht. Die Größe des Datensatzes reicht aus, um das GPT-3-Modell zu trainieren, ohne die gleiche Sequenz mehrmals zu aktualisieren. Studien und Leistungsanalysen zeigen jedoch, dass leicht gefilterte Versionen oder ungefilterte Versionen des Common Crawl-Datensatzes im Vergleich zu stärker kuratierten Datensätzen eine geringe Qualität aufweisen.

Um das Problem der durchschnittlichen Qualität des Datensatzes anzugehen, haben die Entwickler drei Schritte unternommen, um die Qualität des Datensatzes zu verbessern.

Entwickler haben eine Version des Common Crawl-Datensatzes heruntergeladen und gefiltert, basierend auf einem Bereich, der qualitativ hochwertigen Referenzkorpora ähnelt.
Entwickler führten eine Fuzzy-Duplikation auf Dokumentebene im gesamten Datensatz durch, um die Integrität ihres zurückgehaltenen Validierungssatzes als wirksames Maß für Überanpassung zu bewahren und auch Redundanz zu verhindern.
Die Entwickler fügten den Trainingsdaten außerdem hochwertige Referenzkorpora hinzu, um den Common Crawl-Datensatz zu erweitern und die Vielfalt des Datensatzes weiter zu erhöhen.

Die folgende Abbildung zeigt die endgültige Proportion bzw. Mischung der Datensätze, die für das Training des GPT-3-Modells verwendet wurden. Die Common-Crawl-Daten bestanden vor der Filterung aus über 45 TB Klartext, der nach der Filterung auf 570 GB Daten reduziert wurde, was in etwa über 400 Milliarden bytepaarcodierten Token entspricht. Es ist erwähnenswert, dass Datensätze im Training, die als qualitativ hochwertiger angesehen werden, häufiger abgetastet werden, anstatt den Datensatz proportional zu ihrer Größe abzutasten. Infolgedessen werden Datensätze wie Books2 und Common Crawl während des Trainings weniger als einmal abgetastet, während die anderen Datensätze mehrmals abgetastet werden. Dadurch kann das Modell ein geringes Maß an Überanpassung akzeptieren, im Austausch für das Training mit Trainingsdaten höherer Qualität.

Ein wesentliches Problem bei großen Sprachmodellen, die auf einer großen Menge an Internetdaten vorab trainiert werden und die Fähigkeit haben, sich eine große Menge an Inhalten zu merken und zu lernen, ist die potenzielle Kontamination nachgelagerter Aufgaben dadurch, dass deren Entwicklungs- oder Testsätze während der Vorabphase gesehen werden. Trainingsprozess. Um eine solche potenzielle Kontamination zu reduzieren, suchten die Entwickler nach etwaigen Überschneidungen mit den Test- und Entwicklungssätzen der für GPT-3 untersuchten Benchmarks und versuchten, diese Überschneidungen zu beseitigen.

Das obige Bild zeigt die gesamte Rechenleistung, die während des Trainings des GPT-3-Modells verwendet wurde. Das Modell nutzt Skalierungsgesetze für neuronale Sprachmodelle, um viel größere Modelle mit weniger Token als üblich zu trainieren. Infolgedessen benötigten sowohl das GPT-3- als auch das RoBERTa-Large-Modell, das zehnmal kleiner als das GPT-10-Modell ist, während des Vortrainingsprozesses fast 3 Petaflops/Tag an Rechenleistung.

Evaluierung

Beim Lernen mit wenigen Schüssen wertet das Modell jedes im Bewertungsdatensatz vorhandene Beispiel aus, indem es K Beispiele zufällig aus dem Trainingsdatensatz dieser Aufgabe als Konditionierung zieht und es je nach Aufgabe durch 1 oder 2 Zeilenumbrüche begrenzt. Für Storycloze und LAMBADA zieht das Modell Konditionierungsbeispiele aus dem Entwicklungssatz und wertet sie am Testsatz aus, da kein überwachter Trainingssatz verfügbar ist. Für Winograd gibt es nur einen Datensatz und daher werden die Konditionierungsproben direkt daraus gezogen.

K kann ein beliebiger Wert zwischen 0 und dem vom Kontextfenster des Modells zugelassenen Höchstwert sein, der n beträgt.ext = 2048 für alle Modelle und es passen normalerweise etwa 10 bis 100 Beispiele. Größere K-Werte führen oft zu besseren Ergebnissen, aber nicht immer. Deshalb experimentiert das Modell, wenn das Modell über einen Testsatz und einen separaten Entwicklungssatz verfügt, mit einigen K-Werten im Entwicklungssatz und basierend auf den Ergebnissen , es führt den besten Wert im Testsatz aus.

Darüber hinaus stellen die Entwickler für die Aufgaben, die die Auswahl einer korrekten Vervollständigung aus mehreren Optionen erfordern, K Korrekturbeispiele plus Kontextvervollständigung bereit und geben anschließend nur ein Kontextbeispiel an. Anschließend werden die Aufgaben auf der Grundlage der LM-Wahrscheinlichkeit verglichen jeder Fertigstellung. Für Aufgaben, die eine binäre Klassifizierung erfordern, geben die Modelle Optionen häufig semantischer und mit aussagekräftigeren Namen an, behandeln die Aufgabe dann als Multiple-Choice-Aufgabe und gestalten die Aufgabe manchmal auch ähnlich wie das, was das RSR-Modell und die RSR-Architektur tun.

Für die Aufgaben, die eine Freiformabwicklung erfordern, verwendet das Modell die Strahlsuche mit identischen Parametern wie im RSR-Framework, mit einem Strahl der Länge 4 und einer Strafe von 0.6. Das Modell wird dann je nach Standard für den Datensatz entweder mit dem F1-Ähnlichkeitswert, der exakten Übereinstimmung oder BLEU bewertet.

Ergebnisse

Die obige Abbildung zeigt die Trainingskurven für die 8 Modelle, die in der GPT-3-Modellarchitektur verwendet werden, wie in den vorherigen Abschnitten beschrieben. Ähnlich wie die Ergebnisse des KMH-Sprachmodells folgt die Leistung des GPT-3-Modells einem richtigen Gesetz, wenn Trainingsberechnungen effektiv genutzt werden. Nur wenn der Trend um zwei weitere Größenordnungen erweitert wird, ergibt sich ein geringfügiger Unterschied zum Gesetz. Man könnte auf die Idee kommen, dass die Verbesserungen beim Kreuzentropieverlust auf die Modellierung falscher Details des Trainingskorpus zurückzuführen sind. Die Verbesserungen beim Kreuzentropieverlust führen jedoch zu konsistenten Steigerungen der Gesamtleistung über ein breites Spektrum verschiedener NLP-Aufgaben hinweg.

Bevor die 8 verschiedenen Modelle anhand einer Vielzahl von Trainingsdaten bewertet werden, werden die Datensätze in 8 verschiedene Kategorien gruppiert, die ähnliche Aufgaben darstellen. Diese Kategorien sind

Bewertung traditioneller Sprachmodellierungsaufgaben und Aufgaben, die der Sprachmodellierung ähneln, wie Lückentextaufgaben oder Satz-/Absatzvervollständigungsaufgaben.
Auswertung von „Closed-Book“-Fragen- und Beantwortungsaufgaben.
Bewertung der Fähigkeit des Modells, zwischen Sprachen zu übersetzen (insbesondere One-Shot und Few-Shot)
Bewertung der Leistung des Modells bei Winograd-Schema-ähnlichen Aufgaben.
Auswertung von Datensätzen, die vernünftiges Denken oder die Beantwortung von Fragen beinhalten.
Bewertung von Leseverständnisaufgaben.
Evaluierung anhand der SuperGLUE-Benchmark-Suite.
NLI erkunden.

Sprachmodellierungs-, Vervollständigungs- und Lückentextaufgaben

In diesem Abschnitt wird die Leistung des GPT-3-Modells bei herkömmlichen Sprachmodellierungsaufgaben sowie bei Aufgaben bewertet, die die Vorhersage eines einzelnen interessanten Wortes oder die Vervollständigung eines Absatzes oder Satzes oder die Vervollständigung eines Textabschnitts erfordern. Lassen Sie uns sie kurz im Detail besprechen.

Sprachmodellierung

Das GPT-3-Modell berechnet die Zero-Shot-Perplexität für den PTB- oder Penn Tree Bank-Datensatz. Das Modell lässt Wikipedia-bezogene Aufgaben außer Acht, da diese bereits in den Trainingsdaten des Modells enthalten sind. Auch der Benchmark von einer Milliarde Wörtern wird außer Acht gelassen, da er erhebliche Reibungsverluste durch die Einbettung des Datensatzes in die Trainingsdaten verursacht. Der PTB-Datensatz behebt diese Probleme jedoch, da er dem modernen Internet voraus sein kann. Das größte Modell in der GPT-3-Modellarchitektur erreicht mit dem PTB-Datensatz einen bemerkenswerten Vorsprung von 15 Punkten und eine Perplexität von 20.50.

LAMBADA

Der LAMBADA-Datensatz wird verwendet, um die Modellierung des Modells auf langfristige Abhängigkeiten in Absätzen oder Texten zu testen. Das bedeutet, dass das Modell aufgefordert wird, das letzte Wort eines Satzes vorherzusagen, nachdem es den Absatz für den Kontext gelesen hat. Darüber hinaus führt die kontinuierliche Skalierung der Sprachmodelle zu sinkenden Renditen des Benchmarks.

Das GPT-3-Modell erreicht auf LAMBADA eine Genauigkeit von 76 % und hat einen Zuwachs von über 8 % gegenüber früheren Spitzenmodellen. Darüber hinaus demonstriert das LAMBADA-Modell die Flexibilität des Wenig-Schuss-Lernens, da es das Problem auf eine Weise angeht, die klassisch mit dem Datensatz auftritt. Der Abschluss eines Satzes in LAMBADA ist normalerweise das letzte Wort des Satzes, aber da ein Sprachmodell das nicht wissen kann, weist es nicht nur dem richtigen Ende, sondern auch anderen Fortsetzungen im Absatz eine Wahrscheinlichkeit zu.

Wenn die dem GPT-3-Modell zugeführten Beispiele auf eine bestimmte Weise geändert werden, liefert das Modell außerdem eine Genauigkeit von über 86 %, was einer Steigerung von über 18 % gegenüber früheren Modellen entspricht. Darüber hinaus zeigten die Ergebnisse auch, dass die Leistung des Modells in einer Einstellung mit wenigen Schüssen proportional mit der Vergrößerung der Modellgröße zunimmt. Obwohl diese Strategie das kleinste Modell in der GPT-3-Architektur um 20 % reduziert, erhöht sie die Genauigkeit des primären GPT-3-Modells mit 175 Milliarden Parametern um 10 %.

Beantwortung von Fragen zu geschlossenen Büchern

Closed Book Question Answering ist ein Versuch, die Fähigkeit des GPT-3-Modells zu messen, Fragen auf der Grundlage eines breiten Faktenwissens zu beantworten. Da bei solchen Fragen häufig eine große Anzahl möglicher Abfragen möglich ist, wird die Aufgabe normalerweise mithilfe eines Informationsabfragesystems gelöst, das es dem Modell ermöglicht, relevanten Text zu finden, in Kombination mit dem Modell, das lernt, anhand des abgerufenen Textes eine Antwort auf eine Antwort zu generieren die Frage.

Das obige Bild vergleicht das Ergebnis für das GPT-3-Modell im Vergleich mit verschiedenen Modellen und der Ausführung mit unterschiedlichen Datensätzen. Im TriviaQA-Datensatz erreicht das Modell einen Genauigkeitswert von 64.3 % in der Zero-Shot-Einstellung, während es einen Genauigkeitswert von 68 % bzw. 71.2 % in den One-Shot- und Wenig-Shot-Einstellungen erreicht.

Es ist deutlich zu erkennen, dass das GPT-3-Modell in der Nullschusseinstellung das fein abgestimmte T5-11B-Modell um über 14 % übertrifft.

Die obige Abbildung zeigt, dass die Leistung des GPT-3-Modells mit zunehmender Modellgröße reibungslos zunimmt. Die Leistung lässt darauf schließen, dass die Sprachmodelle mit zunehmender Kapazität weiterhin aus dem Datensatz lernen.

Fazit

Man kann mit Sicherheit sagen, dass GPT-3 eine revolutionäre Phase in der LLM-Branche darstellte, da GPT-3 dazu beitrug, die Grenzen der Möglichkeiten eines Sprachmodells zu erweitern. Es waren die von GPT-3 durchgeführten Entwicklungen und überwundenen Hindernisse, die den Weg für das bisher fortschrittlichste und genaueste große Sprachmodell, das GPT-4, ebneten.

Verwandte Themen:GPT-3 LLM OpenAI