Kunstmatige intelligentie

NLP uitdagen om misleidende vragen te weerleggen

Published September 10, 2021

Updated April 5, 2026

Martin Anderson

Sommige vragen zijn onbeantwoordbaar omdat ze onjuiste informatie bevatten – veronderstellingen die de luisteraar moet filteren en verwerpen. Dit gaat ervan uit dat de luisteraar voldoende juiste informatie heeft om de vraag te weerleggen, in plaats van de vraag zelf als bron van (onjuiste) informatie te gebruiken.

Het is een uitdaging voor Natural Language Processing (NLP)-systemen zoals GPT-3, die de neiging hebben om informatie te ‘hallucineren’ om het gesprek gaande te houden.

Op dit moment zal het vragen van GPT-3 ‘Wanneer vond Marie Curie uranium uit?’ waarschijnlijk het antwoord opleveren ‘Marie Curie vond uranium uit in 1898’.

Bron: https://beta.openai.com/playground (Da Vinci instruct beta).

In feite werd uranium ontdekt in 1789 door de Duitse chemicus Martin Heinrich Klaproth, terwijl de openbaring van de Curies in 1898 de isolatie van radium was.

Het probleem van NLP-systemen die onjuiste veronderstellingen negeren, is dit jaar in verschillende publicaties aan de orde gekomen, waaronder de manier waarop Google’s AI-gestuurde zoekresultaten onjuiste informatie in de vraag ‘Wanneer zette Neil Armstrong voet op Mars?’ negeren – een fout die nog steeds zichtbaar is op het moment van schrijven van dit artikel, en eveneens van toepassing is op Toy Story‘s Buzz Lightyear, die apparentelijk op de Maan landde op 21 juli 1969.

Tom Hanks, een andere Toy Story-alumnus, wordt ook toegeschreven door Google dat hij in 1970 op de Maan landde, ondanks het feit dat zijn Apollo 13-personage, astronaut Jim Lovell, het meest beroemd is omdat hij niet dit bereikte.

Veronderstellingen in NLP-uitwisselingen aanpakken

Nu onderzoeken Google Research, samen met onderzoekers van de John Hopkins University en Brown University, nieuwe machine learning-methoden waarmee NLP-systemen uiteindelijk onjuiste vragen kunnen weerleggen op dezelfde manier als het essentieel is voor menselijke leraren om dit te doen tijdens gesprekken met leerlingen.

Het recente artikel Wie is de linguïst die de lichtbulb uitvond? Veronderstellingen verifiëren voor vraagbeantwoording schetst een geconcerteerde inspanning om een nieuw systeem te ontwikkelen om veronderstellingen te identificeren en hun waarheid te controleren voordat de uitwisseling wordt voortgezet

Het nieuwe algoritme verwerkt vragen effectief voordat het antwoord wordt gegeven, waarbij de ‘authenticatie’ van de vraag in een driedelige proces wordt opgesplitst.

Does not compute! Links, de ‘roadblock’ die optreedt zelfs wanneer een geavanceerd NLP-systeem heeft vastgesteld dat de vraag geen zin heeft. Rechts, een uiteenzetting van een voorgesteld algoritme dat probeert het bronprobleem te verhelpen. Bron: https://arxiv.org/pdf/2101.00391.pdf

Hoewel het een eenvoudige verificatieroutine lijkt die vanaf het begin in kennisystemen had moeten worden opgenomen, leren de meeste NLP-gebaseerde trainingsroutines informatie met een ongepaste mate van vertrouwen voor de brondata, inclusief discours (zoals nepnieuws) dat mogelijk op eerder ‘betrouwbare’ kanalen is gepubliceerd.

Daarom is een belangrijk probleem om een betrouwbare bron van feiten te identificeren in een klimaat waarin de verspreiding van onjuiste ‘nieuwsberichten’ via sociale media automatisch autoriteit verleent onder de logica van machine learning-generalisatie. Laatstgenoemde heeft de neiging om de hoeveelheid of herhaling van gegevens te gebruiken als een proxy voor nauwkeurigheid, tenminste totdat het fenomeen van nepnieuws een kritisch onderzoeksgebied in het veld werd in recente jaren.

De beste aanpak voor onbeantwoordbare vragen bepalen

Om een geschikte aanpak te bepalen voor het oplossen van een vraag die onjuiste informatie bevat, hebben de onderzoekers 100 dergelijke vragen door vier verschillende Q&A-modellen laten lopen en hebben ze menselijke deelnemers gevraagd om de beste of minst problematische oplossing te kiezen die de modellen hebben gegenereerd.

De vier mogelijke architectonische resultaten voor de ‘slechte’ vraag waren: ‘Onbeantwoordbaar’ – waarin een gesloten boek Q&A-systeem de vraag effectief afsluit zonder verdere toelichting; ‘Veronderstelling-fout-gebaseerde verklaring’ – waarin het systeem de onjuiste veronderstelling niet verifieert, effectief een ‘onbeantwoord’ antwoord, met een toegevoegde verklaring; ‘Extractieve verklaring’ – waarin het systeem een topisch verwant Wikipedia-citaat ophaalt en toevoegt aan de inleidende ‘Deze vraag is onbeantwoordbaar omdat…’; en ‘Open domein herschrijven’ – waarin een concurrerend systeem additionele bronnen uit Wikipedia zoekt.

Dit voorbeeld van vier mogelijke antwoorden op een ogenschijnlijk ‘onbeantwoordbare’ vraag illustreert de complexiteit van het proberen van een concurrerende domein-gebaseerde oplossing voor het probleem.

Tijdens de tests gaven de vijf deelnemers (geworven via een intern Google-crowdsourcing-platform) de voorkeur aan de veronderstelling-gebaseerde antwoorden, wat de onderzoekers ertoe bracht een nieuw kader te ontwikkelen om vragen te decomponeren en te verifiëren.

In het nieuwe systeem worden linguïstische triggers verkregen uit de vraag door een regelgebaseerde generator die de zin deconstrueert in vermeende feiten. Als meerdere veronderstellingen uit de vraag worden afgeleid, wordt elk onderzocht en zal bijdragen aan het definitieve antwoord als ze verkeerde veronderstellingen uit de oorspronkelijke vraag aanpakken.

Datasets

De veronderstellingen die in het initiële stadium werden gegenereerd, werden handmatig gewijzigd om een verificatiedataset met ‘gouden’ veronderstellingen te creëren. Eventuele veronderstellingen die uit de vertakking van de vraag ontstonden, maar die niet in de oorspronkelijke vragen aanwezig waren, werden verwijderd.

Twee van de auteurs van het artikel hebben vervolgens 462 veronderstellingen handmatig geannoteerd in termen van ja/nee-verifiëring, op basis van een relevante Wikipedia-pagina die aan elke vraag is gekoppeld. Gevallen van meningsverschil werden in een nagesprek opgelost voordat ze aan de dataset werden toegevoegd.

De onderzoekers gebruikten zero-shot NLI, een premise/hypothese-classificatietaken die de deconstructie van Wikipedia-artikelen verwant aan de vragen vereiste. Aangezien dit proces veel meer paren oplevert dan de vraag kan impliceren of het model kan ondersteunen, werden de gefilterde resultaten vervolgens geaggregeerd en gelabeld.