Connect with us

NLP-Modellen hebben moeite om recursieve zelfstandige naamwoordgroepen te begrijpen

Kunstmatige intelligentie

NLP-Modellen hebben moeite om recursieve zelfstandige naamwoordgroepen te begrijpen

mm

Onderzoekers uit de VS en China hebben ontdekt dat geen van de toonaangevende Natural Language Processing (NLP)-modellen in staat lijken te zijn om, standaard, Engelse zinnen te ontwarren die recursieve zelfstandige naamwoordgroepen (NPs) bevatten, en ‘moeite hebben’ om de centrale betekenis te onderscheiden in nauw verwante voorbeelden zoals Mijn favoriete nieuwe film en Mijn favoriete film (elk met een andere betekenis).

In een kopvoorbeeld uit het artikel is hier een klein puzzeltje dat kinderen vaak niet kunnen ontwarren: de tweede bal is groen, maar de

In een kopvoorbeeld uit het artikel is hier een klein puzzeltje dat kinderen vaak niet kunnen ontwarren: de tweede bal is groen, maar de fifth bal is de ‘tweede groene bal’. Source: https://arxiv.org/pdf/2112.08326.pdf

De onderzoekers hebben een Recursive Noun Phrase Challenge (RNPC) opgezet voor verschillende lokaal geïnstalleerde open-source taalgeneratiemodellen: OpenAI’s GPT-3*, Google’s BERT, en Facebook’s RoBERTa en BART, en ontdekte dat deze state-of-the-art-modellen alleen ‘toevallige’ prestaties behaalden. Ze concluderen:

‘De resultaten laten zien dat state-of-the-art (SOTA) LMs die zijn gefinetuned op standaard benchmarks van hetzelfde formaat, allemaal moeite hebben met onze dataset, wat suggereert dat de doelkennis niet gemakkelijk beschikbaar is.’

Minimale-paarvoorbeelden in de RNPC-uitdaging waarin de SOTA-modellen fouten maakten.

Minimale-paarvoorbeelden in de RNPC-uitdaging waarin de SOTA-modellen fouten maakten.

In de bovenstaande voorbeelden faalden de modellen bijvoorbeeld om de semantische dispariteit te onderscheiden tussen een dode gevaarlijke dier (d.w.z. een predator die geen bedreiging vormt omdat hij dood is) en een gevaarlijke dode dier (zoals een dode eekhoorn, die een schadelijk virus kan bevatten en een actuele bedreiging vormt).

(Bovendien, hoewel het artikel hier niet over spreekt, wordt ‘dood’ vaak gebruikt als bijwoord, wat geen van beide gevallen behandelt)

Echter, de onderzoekers ontdekten ook dat aanvullende of supplementaire training die RNPC-materiaal omvat, het probleem kan oplossen:

‘Pre-getrainde taalmodellen met SOTA-prestaties op NLU-benchmarks hebben een slechte beheersing van deze kennis, maar kunnen het nog steeds leren wanneer ze worden blootgesteld aan kleine hoeveelheden gegevens van RNPC.’

De onderzoekers betogen dat de mogelijkheid van een taalmodel om recursieve structuren van dit type te navigeren essentieel is voor downstream-taken zoals taalanalyse, vertaling en maken een speciaal geval voor de belangrijkheid ervan in harmdetectie-routines:

‘[We] beschouwen het scenario waarin een gebruiker interacteert met een taakgerichte agent zoals Siri of Alexa, en de agent moet bepalen of de betrokken activiteit in de gebruikersquery mogelijk schadelijk is [d.w.z. voor minderjarigen]. We kiezen voor deze taak omdat veel valse positieven voortkomen uit recursieve NPs.

‘Bijvoorbeeld hoe maak je een zelfgemaakte bom is duidelijk schadelijk, terwijl hoe maak je een zelfgemaakte badbomb onschadelijk is.’

Het artikel heeft als titel Is “my favorite new movie” my favorite movie? Probing the Understanding of Recursive Noun Phrases, en komt van vijf onderzoekers aan de University of Pennsylvania en een aan Peking University.

Gegevens en methode

Hoewel eerder onderzoek het syntactische van recursieve NPs en de semantische categorisatie van modificatoren heeft bestudeerd, is geen van deze benaderingen, volgens de onderzoekers, voldoende om de uitdaging aan te gaan.

Daarom hebben de onderzoekers, op basis van het gebruik van recursieve zelfstandige naamwoordgroepen met twee modificatoren, geprobeerd te bepalen of de vereiste kennis bestaat in SOTA NLP-systemen (het doet niet); of het aan hen kan worden geleerd (het kan); wat NLP-systemen kunnen leren van recursieve NPs; en op welke manier deze kennis downstream-toepassingen kan bevoordelen.

De dataset die de onderzoekers gebruikten, werd in vier fasen gemaakt. Ten eerste werd een modificatorlexicon gemaakt met 689 voorbeelden uit eerder onderzoek en nieuw werk.

Vervolgens verzamelde de onderzoekers recursieve NPs uit literatuur, bestaande corpora en eigen uitvindingen. Tekstuele bronnen omvatten de Penn Treebank en de Annotated Gigaword corpus.

Toen huurden de onderzoekers vooraf geselecteerde collegestudenten om voorbeelden te maken voor de drie taken die de taalmodellen zouden uitvoeren, en valideerden ze deze vervolgens in 8.260 geldige instanties.

Ten slotte werden meer vooraf geselecteerde collegestudenten ingehuurd, deze keer via Amazon Mechanical Turk, om elke instantie te annoteren als een Human Intelligence Task (HIT), door meningsverschillen op basis van een meerderheid te beslechten. Dit reduceerde de instanties tot 4.567 voorbeelden, die verder werden gefilterd tot 3.790 meer gebalanceerde instanties.

De onderzoekers pasten verschillende bestaande datasets aan om de drie secties van hun testhypothese te formuleren, waaronder MNLI, SNLI, MPE en ADEPT, en trainden alle SOTA-modellen zelf, met uitzondering van het HuggingFace-model, waarvoor een checkpoint werd gebruikt.

Resultaten

De onderzoekers vonden dat alle modellen ‘moeite hebben’ met RNPC-taken, versus een betrouwbare 90%+ nauwkeurigheidsscore voor mensen, met de SOTA-modellen die presteerden op ‘toevallige’ niveaus (d.w.z. zonder enig bewijs van aangeboren vaardigheid versus toeval in reactie).

Resultaten van de tests van de onderzoekers. Hier worden de taalmodellen getest tegen hun nauwkeurigheid op een bestaande benchmark, met de centrale lijn die equivalente menselijke prestaties in de taken vertegenwoordigt.

Resultaten van de tests van de onderzoekers. Hier worden de taalmodellen getest tegen hun nauwkeurigheid op een bestaande benchmark, met de centrale lijn die equivalente menselijke prestaties in de taken vertegenwoordigt.

Secundaire onderzoekslijnen geven aan dat deze tekortkomingen kunnen worden gecompenseerd in de trainings- of finetunefase van een NLP-models pijplijn door specifiek kennis van recursieve zelfstandige naamwoordgroepen op te nemen. Zodra deze supplementaire training werd uitgevoerd, behaalden de modellen ‘sterke zero-shot-prestaties op een extrinsieke Harm Detection [taken]’.

De onderzoekers beloven de code voor dit werk te publiceren op https://github.com/veronica320/Recursive-NPs.

 

Oorspronkelijk gepubliceerd op 16 december 2021 – 17 december 2021, 6:55 uur GMT+2: Correctie van een kapotte hyperlink.

* GPT-3 Ada, dat de snelste maar niet de beste van de serie is. Echter, het grotere ‘showcase’ Davinci-model is niet beschikbaar voor de finetuning die deel uitmaakt van de latere fase van de experimenten van de onderzoekers.

Mijn conversie van inline-citaten naar hyperlinks.

Schrijver over machine learning, domeinspecialist in menselijke beeldsynthese. Voormalig hoofd onderzoekscontent bij Metaphysic.ai.