Stummel NLP-Modelle haben Schwierigkeiten, rekursive Nominalphrasen zu verstehen – Unite.AI
Vernetzen Sie sich mit uns

Artificial Intelligence

NLP-Modelle haben Schwierigkeiten, rekursive Nominalphrasen zu verstehen

mm
Aktualisiert on

Forscher aus den USA und China haben herausgefunden, dass keines der führenden Modelle zur Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) standardmäßig in der Lage zu sein scheint, englische Sätze zu entschlüsseln, die rekursive Nominalphrasen (NPs) enthalten, und „Schwierigkeiten“ haben, die zentrale Bedeutung zu ermitteln in eng verwandten Beispielen wie Mein neuer Lieblingsfilm und Mein Lieblingsfilm (von denen jedes eine andere Bedeutung hat).

In einem Schlagzeilenbeispiel aus der Zeitung ist hier ein kleines Rätsel, das Kinder häufig nicht lösen können: Der zweite Ball ist grün, aber der fünfte Ball ist der „zweite grüne Ball“. Quelle: https://arxiv.org/pdf/2112.08326.pdf

In einem Schlagzeilenbeispiel aus der Zeitung ist hier ein kleines Rätsel, das Kinder häufig nicht lösen können: Der zweite Ball ist grün, aber der fünfte Ball ist der „zweite grüne Ball“. Quelle: https://arxiv.org/pdf/2112.08326.pdf

Die Forscher setzten eine Recursive Noun Phrase Challenge (RNPC) auf mehrere lokal installierte Open-Source-Sprachgenerierungsmodelle: GPT-3* von OpenAI und Google BERT, und Facebooks Roberta und BART, wobei festgestellt wurde, dass diese hochmodernen Modelle nur „zufällige“ Leistungen erbrachten. Sie kommen zu dem Schluss:

„Die Ergebnisse zeigen, dass hochmoderne (SOTA) LMs auf den Standard abgestimmt sind.“ Benchmarks Alle im gleichen Format haben Schwierigkeiten in unserem Datensatz, was darauf hindeutet, dass das Zielwissen nicht ohne weiteres verfügbar ist.'

Beispiele für Minimalpaare in der RNPC-Herausforderung, bei denen die SOTA-Modelle Fehler gemacht haben.

Beispiele für Minimalpaare in der RNPC-Herausforderung, bei denen die SOTA-Modelle Fehler gemacht haben.

In den obigen Beispielen gelang es den Modellen beispielsweise nicht, die semantische Ungleichheit zwischen zu unterscheiden ein totes gefährliches Tier (dh ein Raubtier, das keine Bedrohung darstellt, weil es tot ist) und a gefährliches totes Tier (z. B. ein totes Eichhörnchen, das möglicherweise einen schädlichen Virus enthält und eine derzeit aktive Bedrohung darstellt).

(Obwohl das Papier es nicht berührt, wird außerdem häufig „tot“ verwendet als Adverb, was keinen der beiden Fälle anspricht)

Die Forscher fanden jedoch auch heraus, dass zusätzliche oder ergänzende Schulungen, die RNPC-Material umfassen, das Problem lösen können:

„Vorab trainierte Sprachmodelle mit SOTA-Leistung bei NLU-Benchmarks beherrschen dieses Wissen nur unzureichend, können es aber dennoch erlernen, wenn sie kleinen Datenmengen von RNPC ausgesetzt werden.“

Die Forscher argumentieren, dass die Fähigkeit eines Sprachmodells, durch rekursive Strukturen dieser Art zu navigieren, für nachgelagerte Aufgaben wie Sprachanalyse und Übersetzung von entscheidender Bedeutung ist, und betonen insbesondere seine Bedeutung bei Schadenserkennungsroutinen:

„[Wir] betrachten das Szenario, in dem ein Benutzer mit einem aufgabenorientierten Agenten wie Siri oder Alexa interagiert und der Agent feststellen muss, ob die beteiligte Aktivität in der Benutzerabfrage potenziell schädlich ist.“ [dh an Minderjährige]. Wir wählen diese Aufgabe, weil viele falsch positive Ergebnisse von rekursiven NPs stammen.

'Zum Beispiel, wie man eine selbstgemachte Bombe baut ist offensichtlich schädlich, während wie man eine selbstgemachte Badebombe herstellt ist harmlos.'

Das Krepppapier ist betitelt Ist „mein neuer Lieblingsfilm“ mein Lieblingsfilm? Untersuchung des Verständnisses rekursiver Nominalphrasen, und stammt von fünf Forschern an der University of Pennsylvania und einem an der Peking-Universität.

Daten und Methode

Obwohl frühere Arbeiten sucht syntaktische Struktur rekursiver NPs und die Semantische Kategorisierung von ModifikatorenLaut den Forschern reicht keiner dieser Ansätze aus, um die Herausforderung anzugehen.

Daher haben die Forscher versucht, anhand der Verwendung rekursiver Nominalphrasen mit zwei Modifikatoren festzustellen, ob das erforderliche Wissen in SOTA-NLP-Systemen vorhanden ist (was nicht der Fall ist); ob es ihnen beigebracht werden kann (es kann); was NLP-Systeme von rekursiven NPs lernen können; und auf welche Weise dieses Wissen nachgelagerten Anwendungen zugute kommen kann.

Der von den Forschern verwendete Datensatz wurde in vier Schritten erstellt. Zunächst wurde ein Modifikatorlexikon erstellt, das 689 Beispiele aus früherer Literatur und neuartigen Arbeiten enthielt.

Als nächstes sammelten die Forscher rekursive NPs aus der Literatur, bestehenden Korpora und Ergänzungen ihrer eigenen Erfindung. Zu den Textressourcen gehörten die Penn Baumbankund der Kommentiertes Gigaword Korpus.

Anschließend beauftragte das Team vorab geprüfte College-Studenten mit der Erstellung von Beispielen für die drei Aufgaben, denen die Sprachmodelle gegenüberstehen würden, und validierte sie anschließend in 8,260 gültigen Instanzen.

Schließlich wurden mehr vorab geprüfte College-Studenten eingestellt, dieses Mal über Amazon Mechanical Turk, um jeden Fall als Human Intelligence Task (HIT) zu kommentieren und Streitigkeiten mehrheitlich zu entscheiden. Dadurch wurden die Instanzen auf 4,567 Beispiele reduziert, die weiter auf 3,790 ausgewogenere Instanzen gefiltert wurden.

Die Forscher passten verschiedene vorhandene Datensätze an, um die drei Abschnitte ihrer Testhypothesen zu formulieren, darunter: MNLI, SNLI, MPE und ADEPT, wobei alle SOTA-Modelle selbst trainiert werden, mit Ausnahme des HuggingFace-Modells, bei dem ein Checkpoint verwendet wurde.

Die Ergebnisse

Die Forscher fanden heraus, dass alle Modelle bei RNPC-Aufgaben „Schwierigkeiten“ haben, im Vergleich zu einem zuverlässigen Genauigkeitswert von über 90 % für Menschen, während die SOTA-Modelle auf „Zufalls“-Niveau funktionieren (d. h. ohne Anzeichen einer angeborenen Fähigkeit gegenüber einer zufälligen Chance als Antwort).

Ergebnisse aus den Tests der Forscher. Hier werden die Sprachmodelle anhand eines vorhandenen Benchmarks auf ihre Genauigkeit getestet, wobei die Mittellinie die gleichwertige menschliche Leistung bei den Aufgaben darstellt.

Ergebnisse aus den Tests der Forscher. Hier werden die Sprachmodelle anhand eines vorhandenen Benchmarks auf ihre Genauigkeit getestet, wobei die Mittellinie die gleichwertige menschliche Leistung bei den Aufgaben darstellt.

Sekundäre Untersuchungslinien deuten darauf hin, dass diese Mängel in der Trainings- oder Feinabstimmungsphase der Pipeline eines NLP-Modells ausgeglichen werden können, indem gezielt Kenntnisse über rekursive Nominalphrasen einbezogen werden. Sobald diese Zusatzschulung durchgeführt wurde, erreichten die Modelle Erfolge „starke Zero-Shot-Leistung bei einer extrinsischen Schadenserkennung [Aufgaben]“.

Die Forscher versprechen, den Code für diese Arbeit unter zu veröffentlichen https://github.com/veronica320/Recursive-NPs.

 

Ursprünglich veröffentlicht am 16. Dezember 2021 – 17. Dezember 2021, 6:55 Uhr GMT+2: Defekter Hyperlink korrigiert.

* GPT-3 Ada, das schnellste, aber nicht das beste der Serie. Das größere „Vorzeige“-Davinci-Modell steht jedoch nicht für die Feinabstimmung zur Verfügung, die den späteren Ausdruck der Experimente der Forscher umfasst.

Meine Umwandlung von Inline-Zitaten in Hyperlinks.