Künstliche Intelligenz
NLP-Modelle haben Schwierigkeiten, rekursive Nomen-Phrasen zu verstehen
Forscher aus den USA und China haben festgestellt, dass keines der führenden Natural Language Processing (NLP)-Modelle offensichtlich in der Lage ist, englische Sätze mit rekursiven Nomen-Phrasen (NPs) zu entschlüsseln, und “mühen” sich, die zentrale Bedeutung in eng verwandten Beispielen wie Mein neuer Lieblingsfilm und Mein Lieblingsfilm (von denen jeder eine andere Bedeutung hat) zu erkennen.

In einem Beispiel aus dem Paper ist hier ein kleines Rätsel zu sehen, das Kinder häufig nicht lösen können: der zweite Ball ist grün, aber der fünfte Ball ist der ‘zweite grüne Ball’. Quelle: https://arxiv.org/pdf/2112.08326.pdf
Die Forscher haben eine rekursive Nomen-Phrasen-Herausforderung (RNPC) für mehrere lokal installierte Open-Source-Sprachgenerierungsmodelle erstellt: OpenAI’s GPT-3*, Google’s BERT, und Facebook’s RoBERTa und BART, und festgestellt, dass diese State-of-the-Art-Modelle nur eine “Zufalls”-Leistung erzielten. Sie kommen zu dem Schluss†:
‘Die Ergebnisse zeigen, dass State-of-the-Art-(SOTA)-LMs, die auf Standard-Benchmarks des gleichen Formats fein abgestimmt sind, bei unserem Datensatz Schwierigkeiten haben, was darauf hindeutet, dass die Zielkenntnisse nicht leicht verfügbar sind.’

Minimale Beispiele im RNPC-Herausforderung, bei denen die SOTA-Modelle Fehler gemacht haben.
In den obigen Beispielen versagten die Modelle beispielsweise, die semantische Diskrepanz zwischen ein toter gefährlicher Tier (d. h. ein Raubtier, das keine Bedrohung darstellt, weil es tot ist) und einem gefährlichen toten Tier (wie einem toten Eichhörnchen, das ein schädliches Virus enthalten kann und eine aktuelle Bedrohung darstellt) zu erkennen.
(Zusätzlich, obwohl das Paper dies nicht anspricht, wird ‘tot’ häufig als Adverb verwendet, was weder für den einen noch den anderen Fall gilt)
Die Forscher fanden jedoch auch heraus, dass zusätzliche oder ergänzende Schulungen, die RNPC-Material enthalten, das Problem lösen können:
‘Vorab trainierte Sprachmodelle mit SOTA-Leistung auf NLU-Benchmarks haben eine schlechte Beherrschung dieses Wissens, können es aber noch lernen, wenn sie kleinen Mengen an Daten aus RNPC ausgesetzt sind.’
Die Forscher argumentieren, dass die Fähigkeit eines Sprachmodells, rekursive Strukturen dieser Art zu navigieren, für Downstream-Aufgaben wie Sprachanalyse, Übersetzung und machen einen speziellen Fall für seine Bedeutung in Schadensdetektionsroutinen unerlässlich ist:
‘[Wir] betrachten das Szenario, in dem ein Benutzer mit einem task-orientierten Agenten wie Siri oder Alexa interagiert und der Agent bestimmen muss, ob die in der Benutzerabfrage beteiligte Aktivität potenziell schädlich ist [d. h. für Minderjährige]. Wir wählen diese Aufgabe, weil viele Falschpositiv-Fälle von rekursiven NPs stammen.
‘Zum Beispiel wie man eine selbstgemachte Bombe herstellt ist offensichtlich schädlich, während wie man eine selbstgemachte Badebombe herstellt harmlos ist.’
Das Paper trägt den Titel Ist “mein neuer Lieblingsfilm” mein Lieblingsfilm? Erkundung des Verständnisses rekursiver Nomen-Phrasen und stammt von fünf Forschern an der University of Pennsylvania und einem an der Peking-Universität.
Daten und Methode
Obwohl vorherige Arbeiten die syntaktische Struktur rekursiver NPs und die semantische Kategorisierung von Modifikatoren untersucht haben, sind diese Ansätze laut den Forschern nicht ausreichend, um die Herausforderung anzugehen.
Daher haben die Forscher, basierend auf der Verwendung rekursiver Nomen-Phrasen mit zwei Modifikatoren, versucht, festzustellen, ob das erforderliche Wissen in SOTA-NLP-Systemen vorhanden ist (es ist nicht vorhanden); ob es ihnen beigebracht werden kann (es kann); was NLP-Systeme aus rekursiven NPs lernen können; und auf welche Weise dieses Wissen Downstream-Anwendungen zugute kommen kann.
Das Datenset, das die Forscher verwendeten, wurde in vier Stufen erstellt. Zuerst wurde ein Modifikator-Lexikon mit 689 Beispielen aus vorheriger Literatur und neuem Werk erstellt.
Als nächstes sammelten die Forscher rekursive NPs aus Literatur, bestehenden Corpora und eigenen Erfindungen. Textuelle Ressourcen umfassten die Penn Treebank und das Annotated Gigaword-Corpus.
Dann heuerten die Forscher vorab ausgewählte College-Studenten an, um Beispiele für die drei Aufgaben zu erstellen, die die Sprachmodelle bearbeiten würden, und validierten sie anschließend in 8.260 gültigen Instanzen.
Schließlich wurden weitere vorab ausgewählte College-Studenten, diesmal über Amazon Mechanical Turk, angeheuert, um jede Instanz als Human Intelligence Task (HIT) zu annotieren und Streitigkeiten auf Basis der Mehrheit zu entscheiden. Dies reduzierte die Instanzen auf 4.567 Beispiele, die weiter auf 3.790 ausgewogene Instanzen gefiltert wurden.
Die Forscher passten verschiedene bestehende Datensätze an, um die drei Abschnitte ihrer Testhypothesen zu formulieren, einschließlich MNLI, SNLI, MPE und ADEPT, und trainierten alle SOTA-Modelle selbst, mit Ausnahme des HuggingFace-Modells, bei dem ein Checkpoint verwendet wurde.
Ergebnisse
Die Forscher fanden heraus, dass alle Modelle bei RNPC-Aufgaben “mühen”, im Vergleich zu einer zuverlässigen 90%+-Genauigkeitsrate für Menschen, wobei die SOTA-Modelle auf “Zufalls”-Niveau (d. h. ohne jeden Beweis für eine angeborene Fähigkeit gegenüber dem Zufall in der Antwort) performten.

Ergebnisse der Tests der Forscher. Hier werden die Sprachmodelle gegen ihre Genauigkeit auf einem bestehenden Benchmark getestet, wobei die mittlere Linie die äquivalente menschliche Leistung in den Aufgaben darstellt.
Sekundäre Untersuchungslinien deuten darauf hin, dass diese Defizite durch spezifische Einbeziehung von Wissen über rekursive Nomen-Phrasen in der Trainings- oder Feinabstimmungsphase eines NLP-Modells kompensiert werden können. Sobald diese ergänzende Schulung durchgeführt wurde, erreichten die Modelle ‘starke Zero-Shot-Leistung auf einer extrinsischen Schadensdetektionsaufgabe’.
Die Forscher versprechen, den Code für diese Arbeit auf https://github.com/veronica320/Recursive-NPs zu veröffentlichen.
Ursprünglich veröffentlicht am 16. Dezember 2021 – 17. Dezember 2021, 6:55 Uhr GMT+2: Korrigierte defekte Hyperlinks.
* GPT-3 Ada, das ist das schnellste, aber nicht das beste der Serie. Allerdings ist das größere ‘Showcase’-Modell Davinci nicht für die Feinabstimmung verfügbar, die den späteren Teil der Experimente der Forscher umfasst.
† Meine Umwandlung von Inline-Zitaten in Hyperlinks.










