Artificial Intelligence

NLP-modellen worstelen om recursieve zelfstandige naamwoorden te begrijpen

Bijgewerkt on 9 december 2022

Onderzoekers uit de VS en China hebben ontdekt dat geen van de toonaangevende Natural Language Processing (NLP)-modellen standaard in staat lijkt om Engelse zinnen met recursieve zelfstandige naamwoorden (NP's) te ontrafelen en te 'worstelen' om de centrale betekenis te identificeren. in nauw verwante voorbeelden zoals Mijn favoriete nieuwe film en Mijn favoriete film (die elk een andere betekenis hebben).

In een kopvoorbeeld uit de krant is hier een kleine puzzel die kinderen vaak niet kunnen oplossen: de tweede bal is groen, maar de vijfde bal is de 'tweede groene bal'. Bron: https://arxiv.org/pdf/2112.08326.pdf

De onderzoekers stelden een Recursive Noun Phrase Challenge (RNPC) op voor verschillende lokaal geïnstalleerde open source-taalgeneratiemodellen: OpenAI's GPT-3*, Google's BERT, en die van Facebook RoBERTa en BART, waarbij werd vastgesteld dat deze ultramoderne modellen alleen 'toevallige' prestaties behaalden. Ze concluderen^†:

'Uit de resultaten blijkt dat state-of-the-art (SOTA) LM's op standaard zijn afgestemd benchmarks van hetzelfde formaat worstelen allemaal met onze dataset, wat suggereert dat de doelkennis niet direct beschikbaar is.'

Voorbeelden van minimale paren in de RNPC-uitdaging waarbij de SOTA-modellen fouten maakten.

In de bovenstaande voorbeelden slaagden de modellen er bijvoorbeeld niet in om de semantische ongelijkheid tussen een dood gevaarlijk dier (dwz een roofdier dat geen bedreiging vormt omdat het dood is) en a gevaarlijk dood dier (zoals een dode eekhoorn, die een schadelijk virus kan bevatten en momenteel een actieve bedreiging vormt).

(Bovendien, hoewel het papier het niet raakt, wordt 'dood' ook vaak gebruikt als een bijwoord, die geen van beide gevallen aanpakt)

De onderzoekers ontdekten echter ook dat aanvullende of aanvullende training met RNPC-materiaal het probleem kan oplossen:

'Vooraf getrainde taalmodellen met SOTA-prestaties op NLU-benchmarks beheersen deze kennis slecht, maar kunnen deze nog steeds leren wanneer ze worden blootgesteld aan kleine hoeveelheden gegevens van RNPC.'

De onderzoekers stellen dat het vermogen van een taalmodel om door recursieve structuren van dit type te navigeren essentieel is voor stroomafwaartse taken zoals taalanalyse, vertaling, en maken een speciaal argument voor het belang ervan in routines voor het opsporen van schade:

'[We] beschouwen het scenario waarin een gebruiker communiceert met een taakgerichte agent zoals Siri of Alexa, en de agent moet bepalen of de betrokken activiteit in de gebruikersvraag mogelijk schadelijk is [dwz voor minderjarigen]. We kiezen deze taak omdat veel fout-positieven afkomstig zijn van recursieve NP's.

'Bijvoorbeeld, hoe maak je een zelfgemaakte bom is natuurlijk schadelijk terwijl hoe maak je een zelfgemaakte badbom is ongevaarlijk.'

De papier is getiteld Is "mijn favoriete nieuwe film" mijn favoriete film? Onderzoek naar het begrip van recursieve zelfstandige naamwoorden, en is afkomstig van vijf onderzoekers van de Universiteit van Pennsylvania en één van de Universiteit van Peking.

Gegevens en methode

Hoewel eerder werk heeft bestudeerd syntactische structuur van recursieve NP's en de semantische categorisatie van modifiers, is volgens de onderzoekers geen van beide benaderingen voldoende om de uitdaging aan te gaan.

Daarom hebben de onderzoekers, op basis van het gebruik van recursieve zelfstandige naamwoorden met twee modifiers, geprobeerd vast te stellen of de vereiste kennis bestaat in SOTA NLP-systemen (dat is niet het geval); of het hen kan worden geleerd (het kan); wat NLP-systemen kunnen leren van recursieve NP's; en op welke manieren dergelijke kennis downstream-toepassingen ten goede kan komen.

De dataset die de onderzoekers gebruikten, is in vier fasen tot stand gekomen. De eerste was de constructie van een modifier-lexicon met 689 voorbeelden uit eerdere literatuur en nieuw werk.

Vervolgens verzamelden de onderzoekers recursieve NP's uit de literatuur, bestaande corpora en toevoegingen van hun eigen uitvinding. Tekstuele bronnen omvatten de Penn BoombankEn Geannoteerd Gigaword corpus.

Vervolgens huurde het team vooraf gescreende studenten in om voorbeelden te maken voor de drie taken waarmee de taalmodellen te maken zouden krijgen, en ze daarna te valideren in 8,260 geldige exemplaren.

Ten slotte werden meer vooraf gescreende studenten ingehuurd, dit keer via Amazon Mechanical Turk, om elke instantie te annoteren als een Human Intelligence Task (HIT), waarbij geschillen op meerderheidsbasis werden beslist. Hierdoor werden de instanties teruggebracht tot 4,567 voorbeelden, die verder werden gefilterd tot 3,790 meer gebalanceerde instanties.

De onderzoekers pasten verschillende bestaande datasets aan om de drie secties van hun testhypothesen te formuleren, waaronder MNLI, SNLI, MPE en BEDREVEN, alle SOTA-modellen zelf trainen, met uitzondering van het HuggingFace-model, waar een checkpoint werd gebruikt.

Resultaten

De onderzoekers ontdekten dat alle modellen 'worstelen' met RNPC-taken, versus een betrouwbare 90%+ nauwkeurigheidsscore voor mensen, waarbij de SOTA-modellen presteren op 'toevallig'-niveau (dwz zonder enig bewijs van aangeboren vaardigheid versus willekeurige kans als reactie).

Resultaten van de tests van de onderzoekers. Hier worden de taalmodellen getoetst aan hun nauwkeurigheid op een bestaande benchmark, waarbij de centrale lijn equivalente menselijke prestaties in de taken weergeeft.

Secundaire onderzoekslijnen geven aan dat deze tekortkomingen kunnen worden gecompenseerd tijdens de trainings- of verfijningsfase van de pijplijn van een NLP-model door specifiek kennis van recursieve zelfstandige naamwoorden op te nemen. Nadat deze aanvullende training was gevolgd, waren de modellen bereikt 'sterke zero-shot prestatie op een extrinsieke Harm Detection [taken]'.

De onderzoekers beloven de code voor dit werk vrij te geven op https://github.com/veronica320/Recursive-NPs.

Oorspronkelijk gepubliceerd op 16 december 2021 – 17 december 2021, 6:55 uur GMT+2: verbroken hyperlink gecorrigeerd.

* GPT-3 Ada, de snelste maar niet de beste uit de serie. Het grotere 'showcase'-Davinci-model is echter niet beschikbaar voor de verfijning die de latere zinsnede van de experimenten van de onderzoekers omvat.

^† Mijn conversie van inline citaties naar hyperlinks.

Gerelateerde onderwerpen:GPT-3 natuurlijke taalverwerking begrip van de natuurlijke taal onderzoek

CV's van sollicitanten zijn in feite onmogelijk om geslacht te ontleden, vinden AI-onderzoekers

Mis het niet

Algoritme voorspelt energieverbruik van processor ongelooflijk snel

Martin Anderson

Schrijver over machine learning, kunstmatige intelligentie en big data.
Persoonlijke site: martinanderson.ai
Contact: [e-mail beveiligd]
Twitter: @manders_ai