Artificiell intelligens

NLP-modeller kämpar för att förstå rekursiva substantivfraser

Published December 16, 2021

Updated April 28, 2026

Martin Anderson

Forskare från USA och Kina har funnit att ingen av de ledande Natural Language Processing (NLP)-modellerna tycks vara kapabla, som standard, att tolka engelska meningar som innehåller rekursiva substantivfraser (NPs), och “kämpar” för att individuera den centrala meningen i nära relaterade exempel som Min favorit nya film och Min favoritfilm (var och en med en annan mening).

I ett exempel från artikeln finns ett litet pussel som barn ofta misslyckas med att lösa: den andra bollen är grön, men den femte bollen är den ‘andra gröna bollen’. Källa: https://arxiv.org/pdf/2112.08326.pdf

Forskarna satte upp en utmaning för rekursiva substantivfraser (RNPC) till flera lokalt installerade öppen källkodsmodeller för språkgenerering: OpenAI:s GPT-3*, Google’s BERT, och Facebooks RoBERTa och BART, och fann att dessa state-of-the-art-modeller endast uppnådde “chans”-prestation. De drar följande slutsats^†:

‘Resultaten visar att state-of-the-art (SOTA) LM som finjusterats på standard benchmark av samma format alla kämpar på vår dataset, vilket tyder på att målkunskapen inte är lättillgänglig.’

Minimalpar-exempel i RNPC-utmaningen där SOTA-modellerna gjorde fel.

I exemplen ovan misslyckades modellerna, till exempel, med att skilja på den semantiska skillnaden mellan en död farlig djur (dvs. en predator som inte utgör något hot eftersom den är död) och en farlig död djur (såsom en död ekorre, som kan innehålla ett skadligt virus och är ett aktuellt hot).

(Dessutom, även om artikeln inte berör det, används ‘död’ ofta som adverb, vilket inte täcker något av fallen)

Forskarna fann dock att ytterligare eller kompletterande utbildning som inkluderar RNPC-material kan lösa problemet:

‘Förutbildade språkmodeller med SOTA-prestation på NLU-benchmark har dålig behärskning av denna kunskap, men kan fortfarande lära sig den när de exponeras för små mängder data från RNPC.’

Forskarna hävdar att en språkmodells förmåga att navigera i rekursiva strukturer av detta slag är avgörande för nedströmsuppgifter som språkanalys, översättning och gör ett särskilt fall för dess betydelse i skadedetekteringsrutiner:

‘[Vi] överväger scenariot där en användare interagerar med en uppgiftsorienterad agent som Siri eller Alexa, och agenten behöver avgöra om den involverade aktiviteten i användarfrågan är potentiellt skadlig [dvs. för minderåriga]. Vi väljer denna uppgift eftersom många falska positiva resultat kommer från rekursiva NPs.

‘Till exempel hur man gör en hemmagjord bomb är uppenbarligen skadlig medan hur man gör en hemmagjord badbomb är ofarlig.’

Artikeln heter Är “min favorit nya film” min favoritfilm? Utredning av förståelsen av rekursiva substantivfraser, och kommer från fem forskare vid University of Pennsylvania och en vid Peking University.

Data och metod

Även om tidigare arbete har studierat den syntaktiska strukturen hos rekursiva NPs och semantisk kategorisering av modifierare, är varken av dessa tillvägagångssätt tillräckligt, enligt forskarna, för att möta utmaningen.

Därför, baserat på användningen av rekursiva substantivfraser med två modifierare, har forskarna försökt att fastställa om den nödvändiga kunskapen finns i SOTA NLP-system (den gör det inte); om den kan läras till dem (den kan); vad NLP-system kan lära av rekursiva NPs; och på vilka sätt sådan kunskap kan gynna nedströmsapplikationer.

Datamängden som forskarna använde skapades i fyra steg. Först var konstruktionen av en modifieringslexikon som innehåller 689 exempel hämtade från tidigare litteratur och nytt arbete.

Sedan samlade forskarna rekursiva NPs från litteratur, befintliga korpusar och tillägg av deras egen uppfinning. Textuella resurser inkluderade Penn Treebank och Annotated Gigaword-korpus.

Sedan anställde teamet förhandsgranskade college-studenter för att skapa exempel för de tre uppgifter som språkmodellerna skulle möta, och validerade dem sedan till 8 260 giltiga instanser.

Slutligen anställdes fler förhandsgranskade college-studenter, den här gången via Amazon Mechanical Turk, för att annotera varje instans som en Human Intelligence Task (HIT), och avgjorde tvister på majoritetsbasis. Detta reducerade instanserna till 4 567 exempel, som sedan filtrerades ner till 3 790 mer balanserade instanser.

Forskarna anpassade olika befintliga datamängder för att formulera de tre avsnitten i sina testhypoteser, inklusive MNLI, SNLI, MPE och ADEPT, och tränade alla SOTA-modellerna själva, med undantag för HuggingFace-modellen, där en checkpoint användes.

Resultat

Forskarna fann att alla modeller “kämpar” på RNPC-uppgifter, jämfört med en tillförlitlig 90%+ noggrannhet för människor, och att SOTA-modellerna presterade på “chans”-nivå (dvs. utan någon bevis på medfödd förmåga jämfört med slumpmässig chans i svaret).

Resultat från forskarnas tester. Här testas språkmodellerna mot deras noggrannhet på en befintlig benchmark, med den centrala linjen som representerar motsvarande mänsklig prestation i uppgifterna.

Sekundära utredningar tyder på att dessa brister kan kompenseras under utbildnings- eller finjusteringsfasen av en NLP-modells pipeline genom att specifikt inkludera kunskap om rekursiva substantivfraser. När denna kompletterande utbildning genomfördes uppnådde modellerna ‘stark zero-shot-prestanda på en yttre Harm Detection [uppgift]’.

Forskarna lovar att släppa koden för detta arbete på https://github.com/veronica320/Recursive-NPs.

Ursprungligen publicerad den 16 december 2021 – 17 december 2021, 6:55 GMT+2: Korrigering av trasig hyperlänk.

* GPT-3 Ada, som är den snabbaste men inte den bästa i serien. Men den större ‘showcase’ Davinci-modellen är inte tillgänglig för den finjustering som utgör den senare fasen av forskarnas experiment.

^† Min konvertering av inline-citat till hyperlänkar.

Martin Anderson

Författare på maskinlärande, domänspecialist inom mänsklig bildsyntes. Före detta chef för forskningsinnehåll på Metaphysic.ai.

Unite.AI

NLP-modeller kämpar för att förstå rekursiva substantivfraser

Data och metod

Resultat

You may like