Künstliche Intelligenz

Generierung von Paraphrasen mithilfe von Deep Reinforcement Learning – Vordenker

Aktualisiert on 9. Dezember 2022

Beim Schreiben oder Reden haben wir uns alle gefragt, ob es einen besseren Weg gibt, anderen eine Idee mitzuteilen. Welche Wörter soll ich verwenden? Wie soll ich den Gedanken strukturieren? Wie werden sie voraussichtlich reagieren? Bei Phrasee, verbringen wir viel Zeit damit, über Sprache nachzudenken – was funktioniert und was nicht.

Stellen Sie sich vor, Sie schreiben die Betreffzeile für eine E-Mail-Kampagne, die an 10 Millionen Menschen in Ihrer Liste geht und 20 % Rabatt auf einen schicken neuen Laptop bietet.

Welche Zeile würden Sie wählen:

Sie können jetzt 20 % Extra-Rabatt auf Ihre nächste Bestellung erhalten
Machen Sie sich bereit – zusätzliche 20 % Rabatt

Obwohl sie die gleichen Informationen vermitteln, erreichte eines eine fast 15 % höhere Öffnungsrate als das andere (und ich wette, Sie können unser Modell nicht schlagen, wenn es darum geht, welches Modell vorherzusagen?). Während Sprache oft durchgetestet werden kann A / B-Tests or mehrarmige Banditen, bleibt die automatische Generierung von Paraphrasen ein wirklich herausforderndes Forschungsproblem.

Zwei Sätze gelten als Paraphrasen voneinander, wenn sie dieselbe Bedeutung haben und austauschbar verwendet werden können. Eine weitere wichtige Sache, die oft als selbstverständlich angesehen wird, ist die Fließfähigkeit eines maschinell generierten Satzes.

Im Gegensatz zum überwachten Lernen lernen Agenten des Reinforcement Learning (RL), indem sie mit ihrer Umgebung interagieren und die Belohnungen beobachten, die sie dadurch erhalten. Dieser etwas nuancierte Unterschied hat massive Auswirkungen auf die Funktionsweise der Algorithmen und die Art und Weise, wie die Modelle trainiert werden. Tiefes Verstärkungslernen verwendet neuronale Netze als Funktionsnäherung, um dem Agenten zu ermöglichen, zu lernen, wie er Menschen in komplexen Umgebungen wie z. B. übertreffen kann Go, Atari und StarCraft II.

Trotz dieses Erfolgs wurde Reinforcement Learning bisher nicht in großem Umfang auf reale Probleme, einschließlich der Verarbeitung natürlicher Sprache (Natural Language Processing, NLP), angewendet.

Als Teil meiner Masterarbeit in Data ScienceWir zeigen, wie Deep RL verwendet werden kann, um überwachte Lernmethoden bei der automatischen Generierung von Paraphrasen von Eingabetexten zu übertreffen. Das Problem der Generierung der besten Paraphrase kann darin gesehen werden, die Reihe von Wörtern zu finden, die die semantische Ähnlichkeit zwischen Sätzen maximiert und gleichzeitig die Fließfähigkeit der Ausgabe beibehält. RL-Agenten sind gut geeignet, die besten Aktionen zu finden, um in Kontrollumgebungen die maximal erwartete Belohnung zu erzielen.

Im Gegensatz zu den meisten Problemen beim maschinellen Lernen liegt das größte Problem bei den meisten NLG-Anwendungen (Natural Language Generation) nicht in der Modellierung, sondern in der Auswertung. Während die menschliche Bewertung derzeit als Goldstandard in der NLG-Bewertung gilt, weist sie erhebliche Nachteile auf, darunter die hohe Kosten- und Zeitaufwändigkeit, die schwierige Abstimmung und die mangelnde Reproduzierbarkeit über Experimente und Datensätze hinweg (Han, 2016). Daher suchen Forscher seit langem nach automatischen Metriken, die einfach und verallgemeinerbar sind und das menschliche Urteilsvermögen widerspiegeln (Papineni et al., 2002).

Nachfolgend sind die gängigsten automatischen Auswertungsmethoden bei der Auswertung maschinell generierter Bildunterschriften mit ihren Vor- und Nachteilen zusammengefasst:

Paraphrasengenerierung mithilfe der Reinforcement Learning Pipeline

Wir haben ein System namens ParaPhrasee entwickelt, das hochwertige Paraphrasen generiert. Das System besteht aus mehreren Schritten, um Reinforcement Learning auf recheneffiziente Weise anzuwenden. Nachfolgend finden Sie eine kurze Zusammenfassung der High-Level-Pipeline. Weitere Einzelheiten finden Sie im These.

Datensatz

Es stehen mehrere paraphrasierte Datensätze zur Verfügung, die in der Forschung verwendet werden, darunter: die Microsoft Paraphrase-Korpus, ACLs Semantic Text Similarity-Wettbewerb, Doppelte Quora-Fragen und Geteilte Twitter-Links. Wir haben ausgewählt MS-COCO Angesichts seiner Größe, Sauberkeit und Verwendung als Maßstab für zwei bemerkenswerte Artikel zur Paraphrasengenerierung. MS-COCO enthält 120 Bilder häufiger Szenen mit 5 Bildunterschriften pro Bild, bereitgestellt von 5 verschiedenen menschlichen Annotatoren.

Obwohl es in erster Linie für die Computer-Vision-Forschung konzipiert ist, weisen die Bildunterschriften tendenziell eine hohe semantische Ähnlichkeit auf und sind interessante Paraphrasen. Da die Bildunterschriften von verschiedenen Personen stammen, kann es zu geringfügigen Abweichungen in den Details der Szene kommen, sodass die generierten Sätze dazu neigen, Details zu halluzinieren.

Betreutes Modell

Während sich das Reinforcement Learning im Hinblick auf die Stichprobeneffizienz, die Trainingszeiten und die allgemeinen Best Practices erheblich verbessert hat, ist das Training von RL-Modellen von Grund auf immer noch vergleichsweise sehr langsam und instabil (Arulkumaran et al., 2017). Daher trainieren wir nicht von Grund auf, sondern trainieren zunächst ein überwachtes Modell und optimieren es dann mithilfe von RL.

Wir verwenden eine Encoder-Decoder Modellrahmen und bewerten Sie die Leistung mehrerer überwachter Basismodelle. Bei der Feinabstimmung des Modells mit RL optimieren wir nur das Decoder-Netzwerk und behandeln das Encoder-Netzwerk als statisch. Daher betrachten wir zwei Hauptrahmen:

Trainieren Sie das überwachte Modell von Grund auf mit einem Standard-/Vanilla-Encoder-Decoder mit GRUs
Verwendung vorab trainierter Satzeinbettungsmodelle für den Encoder, einschließlich gepoolter Worteinbettungen (GloVe), InferSent und BERT

Die überwachten Modelle weisen tendenziell eine ziemlich ähnliche Leistung auf, wobei BERT und der Vanilla-Encoder-Decoder die beste Leistung erzielen.

Obwohl die Leistung in der Regel angemessen ist, gibt es drei häufige Fehlerquellen: Stottern, Satzfragmente und Halluzinationen. Dies sind die Hauptprobleme, die durch den Einsatz von RL gelöst werden sollen.

Reinforcement-Learning-Modell

Die Implementierung von RL-Algorithmen ist eine große Herausforderung, insbesondere wenn Sie nicht wissen, ob das Problem gelöst werden kann. Es kann zu Problemen bei der Implementierung Ihrer Umgebung, Ihrer Agenten, Ihrer Hyperparameter, Ihrer Belohnungsfunktion oder einer Kombination aus all dem kommen! Diese Probleme verschärfen sich, wenn man Deep RL macht, da man den Spaß an der zusätzlichen Komplexität hat Debuggen neuronaler Netze.

Wie bei jedem Debugging ist es von entscheidender Bedeutung Fangen Sie einfach an. Wir haben Variationen zweier gut verstandener Spielzeug-RL-Umgebungen (CartPole und FrozenLake) implementiert, um RL-Algorithmen zu testen und eine wiederholbare Strategie für den Wissenstransfer aus dem überwachten Modell zu finden.

Das haben wir mit einem herausgefunden Schauspieler-Kritischer Algorithmus übertraf REINFORCE in diesen Umgebungen. Im Hinblick auf die Wissensübertragung auf das Akteur-Kritiker-Modell haben wir herausgefunden, dass die Initialisierung der Gewichte des Akteurs mit dem trainierten überwachten Modell und das Vortraining des Kritikers die beste Leistung erbrachten. Wir fanden es schwierig, ausgefeilte Richtliniendestillationsansätze auf neue Umgebungen zu übertragen, da sie viele neue Hyperparameter einführen, die angepasst werden müssen, damit sie funktionieren.

Basierend auf diesen Erkenntnissen wenden wir uns dann der Entwicklung eines Ansatzes für die Aufgabe der Paraphrasengenerierung zu. Wir müssen zunächst eine Umgebung schaffen.

Die Umgebung ermöglicht es uns, die Auswirkungen der Verwendung verschiedener Bewertungsmetriken als Belohnungsfunktionen einfach zu testen.

Anschließend definieren wir den Agenten. Angesichts seiner vielen Vorteile verwenden wir eine Akteur-Kritiker-Architektur. Der Akteur wird verwendet, um das nächste Wort in der Sequenz auszuwählen, und seine Gewichte werden mithilfe des überwachten Modells initialisiert. Der Kritiker gibt eine Schätzung der erwarteten Belohnung ab, die ein Staat wahrscheinlich erhalten wird, um dem Akteur beim Lernen zu helfen.

Die richtige Belohnungsfunktion entwerfen

Die wichtigste Komponente beim Entwurf eines RL-Systems ist die Belohnungsfunktion, da diese der RL-Agent zu optimieren versucht. Wenn die Belohnungsfunktion falsch ist, werden die Ergebnisse beeinträchtigt, selbst wenn alle anderen Teile des Systems funktionieren!

Ein klassisches Beispiel hierfür ist CoastRunners Dabei legen die OpenAI-Forscher die Belohnungsfunktion so fest, dass sie die Gesamtpunktzahl maximiert, anstatt das Rennen zu gewinnen. Das Ergebnis ist, dass der Agent eine Schleife entdeckt hat, in der er die höchste Punktzahl erzielen konnte, indem er Turbos aktivierte, ohne das Rennen jemals zu beenden.

CoastRunners 7

Watch this video on YouTube

Da die Bewertung der Qualität von Paraphrasen selbst ein ungelöstes Problem darstellt, ist es noch schwieriger, eine Belohnungsfunktion zu entwerfen, die dieses Ziel automatisch erfasst. Die meisten Aspekte der Sprache lassen sich nicht gut in lineare Metriken zerlegen und sind aufgabenabhängig (Novikova et al., 2017).

Der RL-Agent entdeckt oft eine interessante Strategie zur Maximierung der Belohnungen, die die Schwächen der Bewertungsmetrik ausnutzt, anstatt qualitativ hochwertigen Text zu generieren. Dies führt tendenziell zu einer schlechten Leistung bei Metriken, die der Agent nicht direkt optimiert.

Wir betrachten drei Hauptansätze:

Wortüberlappungsmetriken

Gängige NLP-Bewertungsmetriken berücksichtigen den Anteil der Wortüberlappung zwischen der generierten Paraphrase und dem Bewertungssatz. Je größer die Überschneidung, desto höher die Belohnung. Die Herausforderung bei Ansätzen auf Wortebene besteht darin, dass der Agent zu viele verbindende Wörter wie „a ist on of“ verwendet und es kein Maß für die Sprachkompetenz gibt. Dies führt zu Paraphrasen von sehr geringer Qualität.

Ähnlichkeits- und Sprachflüssigkeitsmetriken auf Satzebene

Die Haupteigenschaften einer generierten Paraphrase bestehen darin, dass sie fließend und semantisch ähnlich zum Eingabesatz sein muss. Daher versuchen wir, diese einzeln explizit zu bewerten und dann die Metriken zu kombinieren. Für die semantische Ähnlichkeit verwenden wir die Kosinusähnlichkeit zwischen Satzeinbettungen aus vorab trainierten Modellen, einschließlich BERT. Für die Sprachkompetenz verwenden wir eine Bewertung, die auf der Ratlosigkeit eines Satzes aus GPT-2 basiert. Je größer die Werte für Kosinusähnlichkeit und Sprachkompetenz sind, desto höher ist die Belohnung.

Wir haben viele verschiedene Kombinationen von Satzeinbettungsmodellen und Sprachkompetenzmodellen ausprobiert und obwohl die Leistung angemessen war, bestand das Hauptproblem des Agenten darin, semantische Ähnlichkeit und Sprachkompetenz nicht ausreichend in Einklang zu bringen. Bei den meisten Konfigurationen priorisierte der Agent die flüssige Sprache, was dazu führte, dass Details entfernt wurden und die meisten Entitäten „in der Mitte“ von etwas platziert oder „auf einem Tisch“ oder „am Straßenrand“ verschoben wurden.

Multi-Objective Reinforcement Learning ist eine offene Forschungsfrage und stellt in diesem Fall eine große Herausforderung dar.

Verwendung eines kontradiktorischen Modells als Belohnungsfunktion

Da Menschen als Goldstandard bei der Bewertung gelten, trainieren wir ein separates Modell namens Diskriminator, um vorherzusagen, ob zwei Sätze Paraphrasen voneinander sind (ähnlich wie ein Mensch bewerten würde). Das Ziel des RL-Modells besteht dann darin, dieses Modell davon zu überzeugen, dass der generierte Satz eine Paraphrase der Eingabe ist. Der Diskriminator generiert einen Wert dafür, wie wahrscheinlich es ist, dass die beiden Sätze Paraphrasen voneinander sind, der als Belohnung für die Schulung des Agenten verwendet wird.

Alle 5,000 Vermutungen wird dem Diskriminator mitgeteilt, welche Paraphrase aus dem Datensatz stammt und welche generiert wurde, damit er seine zukünftigen Vermutungen verbessern kann. Der Prozess wird über mehrere Runden fortgesetzt, wobei der Agent versucht, den Diskriminator zu täuschen, und der Diskriminator versucht, zwischen den generierten Paraphrasen und den Bewertungsparaphrasen aus dem Datensatz zu unterscheiden.

Nach mehreren Trainingsrunden generiert der Agent Paraphrasen, die die überwachten Modelle und andere Belohnungsfunktionen übertreffen.

Schlussfolgerung und Einschränkungen

Gegnerische Ansätze (einschließlich Selbstspiel für Spiele) stellen einen äußerst vielversprechenden Ansatz für das Training von RL-Algorithmen dar, um bei bestimmten Aufgaben die menschliche Leistung zu übertreffen, ohne eine explizite Belohnungsfunktion zu definieren.

Während RL in diesem Fall das überwachte Lernen übertreffen konnte, ist der zusätzliche Overhead in Bezug auf Code, Berechnung und Komplexität den Leistungsgewinn für die meisten Anwendungen nicht wert. RL sollte am besten Situationen überlassen werden, in denen überwachtes Lernen nicht einfach angewendet werden kann und eine Belohnungsfunktion leicht zu definieren ist (z. B. Atari-Spiele). Die Ansätze und Algorithmen sind beim überwachten Lernen weitaus ausgereifter und das Fehlersignal ist viel stärker, was zu einem viel schnelleren und stabileren Training führt.

Eine weitere Überlegung ist, wie bei anderen neuronalen Ansätzen, dass der Agent in Fällen, in denen sich die Eingabe von den zuvor gesehenen Eingaben unterscheidet, sehr dramatisch ausfallen kann, was eine zusätzliche Ebene von Plausibilitätsprüfungen für Produktionsanwendungen erfordert.

Das explosionsartige Interesse an RL-Ansätzen und die Fortschritte in der Computerinfrastruktur in den letzten Jahren werden enorme Möglichkeiten für die Anwendung von RL in der Industrie, insbesondere im NLP, eröffnen.

Als nächstes

Sicherheit selbstfahrender Autos durch neue Trainingsmethode verbessert

Verpassen Sie nicht

Forscher glauben, dass KI zum Schutz der Privatsphäre der Menschen eingesetzt werden kann

Andrew Gibbs-Bravo

Andrew Gibbs-Bravo ist Datenwissenschaftler bei Phrasee konzentrierte sich auf die Verbesserung der Technologie hinter dem weltweit führenden AI-Powered Copywriting von Phrasee. Er ist außerdem Mitorganisator des London Reinforcement Learning Community Meetup und interessiert sich für alles, was mit RL, NLP und maschinellem Lernen zu tun hat.