Vernetzen Sie sich mit uns

KĂŒnstliche Intelligenz

NLP-Modelle haben Schwierigkeiten, rekursive Nominalphrasen zu verstehen

mm

Forscher aus den USA und China haben herausgefunden, dass keines der fĂŒhrenden Modelle zur Verarbeitung natĂŒrlicher Sprache (NLP) standardmĂ€ĂŸig in der Lage zu sein scheint, englische SĂ€tze mit rekursiven Nominalphrasen (NPs) zu entschlĂŒsseln und „Schwierigkeiten“ hat, die zentrale Bedeutung in eng verwandten Beispielen zu identifizieren, wie z. B. Mein neuer Lieblingsfilm mit einem Mein Lieblingsfilm (von denen jedes eine andere Bedeutung hat).

In einem Schlagzeilenbeispiel aus der Zeitung ist hier ein kleines RĂ€tsel, das Kinder hĂ€ufig nicht lösen können: Der zweite Ball ist grĂŒn, aber der fĂŒnfte Ball ist der „zweite grĂŒne Ball“. Quelle: https://arxiv.org/pdf/2112.08326.pdf

In einem Schlagzeilenbeispiel aus der Zeitung ist hier ein kleines RĂ€tsel, das Kinder hĂ€ufig nicht lösen können: Der zweite Ball ist grĂŒn, aber der fĂŒnfte Ball ist der „zweite grĂŒne Ball“. Quelle: https://arxiv.org/pdf/2112.08326.pdf

Die Forscher stellten eine Recursive Noun Phrase Challenge (RNPC) an mehrere lokal installierte Open-Source-Sprachgenerierungsmodelle: OpenAIs GPT-3*, Googles BERTund Facebooks Roberta mit einem BART, und stellten fest, dass diese hochmodernen Modelle nur eine zufĂ€llige Leistung erzielten. Sie schlussfolgern†:

„Die Ergebnisse zeigen, dass hochmoderne (SOTA) LMs auf den Standard abgestimmt sind.“ Benchmarks des gleichen Formats haben alle Probleme mit unserem Datensatz, was darauf schließen lĂ€sst, dass das Zielwissen nicht ohne weiteres verfĂŒgbar ist.‘

Beispiele fĂŒr Minimalpaare in der RNPC-Herausforderung, bei denen die SOTA-Modelle Fehler gemacht haben.

Beispiele fĂŒr Minimalpaare in der RNPC-Herausforderung, bei denen die SOTA-Modelle Fehler gemacht haben.

In den obigen Beispielen gelang es den Modellen beispielsweise nicht, die semantische Ungleichheit zwischen zu unterscheiden ein totes gefÀhrliches Tier (dh ein Raubtier, das keine Bedrohung darstellt, weil es tot ist) und a gefÀhrliches totes Tier (z. B. ein totes Eichhörnchen, das möglicherweise einen schÀdlichen Virus enthÀlt und eine derzeit aktive Bedrohung darstellt).

(Außerdem wird „tot“ hĂ€ufig verwendet, obwohl es in der Zeitung nicht erwĂ€hnt wird. als Adverb, was keinen der beiden FĂ€lle anspricht)

Die Forscher fanden jedoch auch heraus, dass zusÀtzliche oder ergÀnzende Schulungen, die RNPC-Material umfassen, das Problem lösen können:

„Vortrainierte Sprachmodelle mit SOTA-Leistung bei NLU-Benchmarks beherrschen dieses Wissen nur unzureichend, können es aber dennoch erlernen, wenn sie kleinen Datenmengen von RNPC ausgesetzt werden.“

Die Forscher argumentieren, dass die FĂ€higkeit eines Sprachmodells, rekursive Strukturen dieser Art zu navigieren, fĂŒr nachgelagerte Aufgaben wie Sprachanalyse und Übersetzung von wesentlicher Bedeutung ist, und weisen insbesondere auf seine Bedeutung bei Routinen zur Schadenserkennung hin:

„[Wir] betrachten das Szenario, in dem ein Benutzer mit einem aufgabenorientierten Agenten wie Siri oder Alexa interagiert und der Agent feststellen muss, ob die beteiligte AktivitĂ€t in der Benutzerabfrage potenziell schĂ€dlich ist.“ [dh an MinderjĂ€hrige]. Wir wĂ€hlen diese Aufgabe, weil viele falsch positive Ergebnisse von rekursiven NPs stammen.

'Zum Beispiel, wie man eine selbstgemachte Bombe baut ist offensichtlich schÀdlich, wÀhrend wie man eine selbstgemachte Badebombe herstellt ist harmlos.'

Die Krepppapier ist betitelt Ist „mein neuer Lieblingsfilm“ mein Lieblingsfilm? Untersuchung des VerstĂ€ndnisses rekursiver Nominalphrasen, und stammt von fĂŒnf Forschern an der University of Pennsylvania und einem an der Peking-UniversitĂ€t.

Daten und Methode

Obwohl frĂŒhere Arbeiten sucht syntaktische Struktur rekursiver NPs und die Semantische Kategorisierung von ModifikatorenLaut den Forschern reicht keiner dieser AnsĂ€tze aus, um die Herausforderung anzugehen.

Daher haben die Forscher anhand der Verwendung rekursiver Nominalphrasen mit zwei Modifikatoren versucht, festzustellen, ob das erforderliche Wissen in SOTA-NLP-Systemen vorhanden ist (ist nicht der Fall), ob es ihnen beigebracht werden kann (ist möglich), was NLP-Systeme von rekursiven NPs lernen können und in welcher Weise nachgelagerte Anwendungen von diesem Wissen profitieren können.

Der von den Forschern verwendete Datensatz wurde in vier Schritten erstellt. ZunĂ€chst wurde ein Modifikatorlexikon erstellt, das 689 Beispiele aus frĂŒherer Literatur und neuartigen Arbeiten enthielt.

Als nÀchstes sammelten die Forscher rekursive NPs aus der Literatur, bestehenden Korpora und ErgÀnzungen ihrer eigenen Erfindung. Zu den Textressourcen gehörten die Penn Baumbankund die Kommentiertes Gigaword Korpus.

Anschließend beauftragte das Team vorab geprĂŒfte College-Studenten mit der Erstellung von Beispielen fĂŒr die drei Aufgaben, denen die Sprachmodelle gegenĂŒberstehen wĂŒrden, und validierte sie anschließend in 8,260 gĂŒltigen Instanzen.

Schließlich wurden mehr vorab geprĂŒfte College-Studenten eingestellt, dieses Mal ĂŒber Amazon Mechanical Turk, um jeden Fall als Human Intelligence Task (HIT) zu kommentieren und Streitigkeiten mehrheitlich zu entscheiden. Dadurch wurden die Instanzen auf 4,567 Beispiele reduziert, die weiter auf 3,790 ausgewogenere Instanzen gefiltert wurden.

Die Forscher passten verschiedene vorhandene DatensÀtze an, um die drei Abschnitte ihrer Testhypothesen zu formulieren, darunter: MNLI, SNLI, MPE mit einem ADEPT, wobei alle SOTA-Modelle selbst trainiert werden, mit Ausnahme des HuggingFace-Modells, bei dem ein Checkpoint verwendet wurde.

Ergebnisse

Die Forscher stellten fest, dass alle Modelle bei RNPC-Aufgaben „Schwierigkeiten“ hatten, wĂ€hrend Menschen eine zuverlĂ€ssige Genauigkeit von ĂŒber 90 % erreichten, wĂ€hrend die SOTA-Modelle auf „Zufallsniveau“ arbeiteten (d. h. ohne jeglichen Hinweis auf eine angeborene FĂ€higkeit oder auf Zufall als Reaktion).

Ergebnisse aus den Tests der Forscher. Hier werden die Sprachmodelle anhand eines vorhandenen Benchmarks auf ihre Genauigkeit getestet, wobei die Mittellinie die gleichwertige menschliche Leistung bei den Aufgaben darstellt.

Ergebnisse der Tests der Forscher. Hier werden die Sprachmodelle anhand eines bestehenden Benchmarks auf ihre Genauigkeit getestet, wobei die mittlere Linie die Àquivalente menschliche Leistung bei den Aufgaben darstellt.

SekundĂ€re Untersuchungen deuten darauf hin, dass diese Defizite in der Trainings- oder Feinabstimmungsphase der Pipeline eines NLP-Modells durch die gezielte Einbeziehung von Wissen ĂŒber rekursive Nominalphrasen ausgeglichen werden können. Nach diesem zusĂ€tzlichen Training erreichten die Modelle „starke Zero-Shot-Leistung bei der Erkennung extrinsischer SchĂ€den [Aufgaben]“.

Die Forscher versprechen, den Code fĂŒr diese Arbeit unter zu veröffentlichen https://github.com/veronica320/Recursive-NPs.

 

UrsprĂŒnglich veröffentlicht am 16. Dezember 2021 – 17. Dezember 2021, 6:55 Uhr GMT+2: Defekter Hyperlink korrigiert.

* GPT-3 Ada, das schnellste, aber nicht das beste Modell der Serie. Das grĂ¶ĂŸere „Vorzeigemodell“ Davinci steht jedoch fĂŒr die Feinabstimmung, die die spĂ€tere Phase der Experimente der Forscher umfasst, nicht zur VerfĂŒgung.

† Meine Umwandlung von Inline-Zitaten in Hyperlinks.

Autor zum Thema maschinelles Lernen, Fachspezialist fĂŒr die Synthese menschlicher Bilder. Ehemaliger Leiter fĂŒr Forschungsinhalte bei Metaphysic.ai.
Persönliche Seite: martinanderson.ai
Kontakt: [E-Mail geschĂŒtzt]
Twitter: @manders_ai