Künstliche Intelligenz

NLP herausfordern, um fehlgeleitete Fragen in Frage zu stellen

Published September 10, 2021

Updated April 28, 2026

Martin Anderson

Einige Fragen sind unbeantwortbar, weil sie falsche Informationen enthalten – Präsuppositionen, die der Zuhörer filtern und ablehnen muss. Dies setzt voraus, dass der Zuhörer genügend korrekte Informationen hat, um die Frage in Frage zu stellen, anstatt die Frage selbst als Informationsquelle zu verwenden.

Es ist eine Herausforderung für Natural Language Processing (NLP)-Systeme wie GPT-3, die eine Tendenz haben, Informationen zu “halluzinieren”, um das Gespräch aufrechtzuerhalten.

Derzeit würde die Frage an GPT-3 “Wann hat Marie Curie Uran erfunden?” wahrscheinlich die Antwort “Marie Curie hat Uran 1898 erfunden” erhalten.

Quelle: https://beta.openai.com/playground (Da Vinci instruct beta).

Tatsächlich wurde Uran 1789 von dem deutschen Chemiker Martin Heinrich Klaproth entdeckt, während die Entdeckung der Curies 1898 die Isolierung von Radium war.

Das Problem von NLP-Systemen, die falsche Präsuppositionen ignorieren, ist in einer Reihe von Veröffentlichungen in diesem Jahr in den Fokus gerückt, einschließlich der Art und Weise, wie Google’s AI-gestützte Suchergebnisse falsche Informationen in der Frage “Wann hat Neil Armstrong den Fuß auf den Mars gesetzt?” ignorieren – ein Fehler, der zum Zeitpunkt des Schreibens dieses Artikels noch vorhanden ist und gleichermaßen auf Buzz Lightyear aus Toy Story zutrifft, der angeblich am 21. Juli 1969 auf dem Mond gelandet ist.

Tom Hanks, ein weiterer Toy Story-Darsteller, wird von Google auch dafür creditiert, 1970 auf dem Mond gelandet zu sein, obwohl sein Apollo-13-Charakter, Astronaut Jim Lovell, am bekanntesten dafür ist, dies nicht erreicht zu haben.

Präsuppositionsprobleme in NLP-Interaktionen angehen

Jetzt untersuchen Google Research und Forscher von der John Hopkins University und der Brown University neue maschinelle Lernmethoden, um NLP-Systeme dazu zu bringen, faktisch falsche Fragen auf die gleiche Weise in Frage zu stellen, wie es für menschliche Lehrer während Gesprächen mit Schülern unerlässlich ist.

Die kürzlich veröffentlichte Studie Welcher Linguist hat die Glühbirne erfunden? Präsuppositionsverifizierung für Frage-Antwort-Systeme skizziert einen konzentrierten Versuch, ein neues System zu entwickeln, um Präsuppositionen zu identifizieren und ihre Richtigkeit zu überprüfen, bevor die Interaktion fortgesetzt wird.

Der neue Algorithmus verarbeitet Fragen effektiv, bevor er zur Konversation zurückkehrt, und unterteilt die “Authentifizierung” der Frage in einen dreiteiligen Prozess.

Does not compute! Links ist der ‘Roadblock’, der auftritt, selbst wenn ein fortschrittliches NLP-System in der Lage ist, zu erkennen, dass die Frage keinen Sinn ergibt. Rechts ist eine Aufschlüsselung eines vorgeschlagenen Algorithmus, der versucht, den Quellfehler zu beheben. Quelle: https://arxiv.org/pdf/2101.00391.pdf

Obwohl es sich um eine einfache Verifizierungsroutine handelt, die ursprünglich in Wissenssysteme integriert worden sein sollte, lernen die meisten NLP-basierten Trainingsroutinen Informationen mit einem unangemessenen Vertrauensniveau in die Quelldaten, einschließlich Diskursen (wie Fake News), die möglicherweise auf zuvor “vertrauenswürdigen” Kanälen veröffentlicht wurden.

Daher ist ein wichtiger Aspekt die Identifizierung eines zuverlässigen Informationsquellen in einer Atmosphäre, in der die Verbreitung falscher “Nachrichten” durch soziale Medien standardmäßig Autorität unter der Logik der maschinellen Lerngeneralisierung gewährt, zumindest bis das Phänomen von Fake News in den letzten Jahren zu einem kritischen Interessengebiet im Bereich wurde.

Beste Ansätze für unbeantwortbare Fragen bestimmen

Um einen geeigneten Ansatz für die Lösung einer Frage mit Fehlinformationen zu bestimmen, führten die Forscher 100 solcher Anfragen durch vier verschiedene Q&A-Modelle und baten menschliche Testpersonen, die beste oder am wenigsten problematische Lösung zu wählen, die die Modelle generiert hatten.

Die vier möglichen architektonischen Ergebnisse für die “schlechte” Frage waren: ‘Unbeantwortbar’ – wo ein geschlossenes Buch-Q&A-System die Anfrage effektiv beendet, ohne weitere Erklärung; ‘Präsuppositionsfehler-basierte Erklärung’ – wo das System den falschen Unterstellungen nicht bestätigt, effektiv eine ‘unbeantwortbare’ Antwort, mit einer zusätzlichen Erklärung; ‘Extraktive Erklärung’ – wo das System einen topisch verwandten Wikipedia-Zitat abruft und es der einleitenden ‘Diese Frage ist unbeantwortbar, weil…’ anhängt; und ‘Offene Domänen-Neuschreibung’ – wo ein wettbewerbsfähiges System zusätzliche Quellen aus Wikipedia sucht.

Dieses Beispiel von vier möglichen Antworten auf eine scheinbar ‘unbeantwortbare’ Frage veranschaulicht die Komplexität des Versuchs, eine wettbewerbsfähige domänenbasierte Lösung für das Problem zu finden.

Im Laufe der Tests bevorzugten die fünf Teilnehmer (rekrutiert auf einer internen Google-Crowdsourcing-Plattform) die präsuppositions-basierten Antworten, was die Forscher dazu veranlasste, ein neues Framework zu entwickeln, um Fragen zu zerlegen und zu verifizieren.

In dem neuen System werden linguistische Auslöser aus der Frage durch einen regelbasierten Generator extrahiert, der den Satz in mutmaßliche Tatsachenbehauptungen zerlegt. Wenn multiple Präsuppositionen aus der Frage abgeleitet werden, wird jede untersucht und wird zum finalen Antwortbeitrag, wenn sie irrig unterstellte Präsuppositionen aus der ursprünglichen Frage ansprechen.

Datensätze

Die in der ersten Phase generierten Präsuppositionen wurden manuell korrigiert, um einen Verifizierungsdatensatz mit ‘Gold’-Präsuppositionen zu erstellen. Alle Präsuppositionen, die aus der Verzweigung der Anfrage entstanden, aber nicht in den ursprünglichen Fragen vorhanden waren, wurden entfernt.

Zwei der Autoren der Studie annotierten dann manuell 462 Präsuppositionen in Bezug auf Ja/Nein-Verifizierbarkeit, basierend auf einer relevanten Wikipedia-Seite, die jeder Frage zugeordnet war. Fälle von Uneinigkeit wurden in einer nachträglichen Diskussion gelöst, bevor sie dem Datensatz hinzugefügt wurden.

Die Forscher verwendeten Zero-Shot-NLI, eine Prämisse/Hypothese-Klassifizierungsaufgabe, die die Zerlegung von Wikipedia-Artikeln im Zusammenhang mit den Fragen erforderte. Da dieser Prozess mehr Paare ergibt, als die Frage möglicherweise beinhaltet oder das Modell unterstützt, wurden die gefilterten Ergebnisse dann aggregiert und beschriftet.

Ergebnisse und Antwortformulierung

Die effektivsten Ergebnisse wurden durch die arbeitsintensivste Lösung erzielt: ein fein abgestimmtes, regelbasiertes/NLI-Hybrid, das aus ALBERT QNLI mit Wiki-Sätzen und Präsuppositionen generiert wurde.

Die Leistung der Verifizierungsmodelle, wobei ‘Wiki-Sätze’ Sätze verwendet, die aus questionbezogenen Wikipedia-Artikeln erhalten werden, und ‘Wiki-Präsuppositionen’ generierte Präsuppositionen aus diesen Sätzen sind.

Mit dieser Formulierung entwickelten die Forscher ein Templatesystem, bei dem ein negierender Fakt aus Wikipedia der einleitenden ‘Diese Frage ist unbeantwortbar, weil…’ angehängt wurde und ähnlichen Phrasen. Obwohl es keine ideale Lösung ist, schlagen die Autoren vor, dass Antworten, die auf Unverifizierbarkeit basieren, wahrscheinlich die Häufigkeit von Falschnegativen reduzieren.

Das System wurde letztendlich in einem erweiterten Transformer-Modell implementiert.

Auswirkungen

Abhängig von seiner endgültigen Leistung in der realen Welt könnte argumentiert werden, dass dieser gesamte Ansatz möglicherweise zur bloßen Substitution von ‘unverifizierbar’ für ‘unbeantwortbar’ in Fällen führt, in denen das unterstützende Forschungssystem keine nützliche Korrektur für eine Frage mit falscher Präsupposition auswerten kann. Effektiv scheint es, dass die Infrastruktur für bessere Verifizierungssysteme in der Zukunft gelegt wird.

Die Forscher räumen bereits ein, dass die Kosten von tokenbasierten API-Anfragen ein limitierender Faktor bei der Formulierung der längeren Antworten sind, die dieses System generieren wird, und es muss angenommen werden, dass die zusätzliche Overhead von “Live”-Recherche in eine Frage wahrscheinlich Latenz sogar in großen Systemen wie GPT-3 hinzufügt, da die Responsivität solcher Systeme bisher von der generalisierten Integration von Wissen zur Trainingszeit abhängt und nicht von umfangreichen, netzwerkbasierten Verifizierungsroutinen.

Darüber hinaus weisen die Forscher darauf hin, dass das System derzeit Einschränkungen im Zusammenhang mit der Verarbeitung semantischer Aspekte des Textes aufweist:

Beispielsweise wer glaubt pip, dass estellas Mutter ist, hat ein eingebettetes Possessiv unter einem nonfaktiven Verb glauben, aber unser Generator würde dennoch ‘estella’ hat ‘Mutter’ generieren.

Trotzdem stellen die Forscher sich neue und flexiblere Frage-Antwort-Systeme vor, die auf der Grundlage dieser Forschung entwickelt werden:

Wir planen, in Zukunft auf dieser Arbeit aufzubauen, indem wir QA-Systeme vorschlagen, die robuster und kooperativer sind. Beispielsweise könnten verschiedene Arten von Präsuppositionsfehlern durch flexiblere Antwortstrategien angegangen werden – z. B. könnte die Verletzung von Einzigartigkeitspräsuppositionen besser durch die Bereitstellung aller möglichen Antworten gehandhabt werden, anstatt zu erklären, dass die Einzigartigkeitspräsupposition verletzt wurde.