Umělá inteligence

Získání NLP pro vyzyvání špatně informovaných otázek

Published September 10, 2021

Updated April 5, 2026

Martin Anderson

Některé otázky jsou nezodpověditelné, protože obsahují nesprávné informace – předpoklady, které musí osoba slyšící otázku filtrovat a odmítat. To předpokládá, samozřejmě, že posluchač má dostatek správných informací, aby mohl zpochybnit otázku, místo aby používal otázku samotnou jako zdroj (špatných) informací.

Je to výzva pro systémy zpracování přirozeného jazyka (NLP), jako je GPT-3, které mají tendenci “hallucinovat” informace, aby udržely dialog.

V současné době, pokud se zeptáte GPT-3 “Kdy Marie Curie vynalezla uran?”, pravděpodobně dostanete odpověď “Marie Curie vynalezla uran v roce 1898”.

Source: https://beta.openai.com/playground (Da Vinci instruct beta).

Ve skutečnosti byl uran objeven v roce 1789 německým chemikem Martinem Heinrichem Klaprothem, zatímco zjištění Curieů v roce 1898 bylo izolací radia.

Problém NLP systémů, které ignorují nesprávné předpoklady, se stal středem pozornosti v několika publicistických příspěvcích tohoto roku, včetně způsobu, jakým výsledky vyhledávání Google s pomocí AI ignorují nesprávné informace v otázce “Kdy Neil Armstrong přistál na Marsu?” – chyba, která je stále zobrazena v době psaní tohoto článku, a stejně platí pro postavičku Buzz Lightyeara z filmu Toy Story, která údajně přistála na Měsíci 21. července 1969.

Tom Hanks, další herec z filmu Toy Story, je také uveden Googlem jako člověk, který přistál na Měsíci v roce 1970, navzdory skutečnosti, že jeho postava astronauta Jima Lovella z filmu Apollo 13 je nejznámější tím, že tuto věc nedokázal.

Řešení problémů s předpoklady v NLP výměnách

Nyní Google Research, společně s výzkumníky z Univerzity Johnse Hopkinse a Univerzity Brown, zkoumá nové metody strojového učení, pomocí kterých systémy NLP mohou být nakonec schopny zpochybnit fakticky nesprávné otázky stejným způsobem, jako je to důležité pro lidské učitele během rozhovorů se studenty.

Nová práce Který lingvista vynalezl žárovku? Verifikace předpokladů pro otázku a odpověď popisuje soustředěné úsilí o vývoj nového systému, který bude moci identifikovat předpoklady a ověřit jejich pravdivost před pokračováním výměny

Nový algoritmus efektivní předběžně zpracovává otázky, než se vrátí k rozhovoru, a rozděluje “ověřování” otázky do tří částí.

Does not compute! Vlevo je ‘blokáda’, která nastává i tehdy, když pokročilý systém NLP dokáže identifikovat, že otázka nedává smysl. Vpravo je rozbor navrhovaného algoritmu, který se snaží napravit zdroj chyby. Source: https://arxiv.org/pdf/2101.00391.pdf

Ačkoli se zdá, že jde o jednoduchou ověřovací rutinu, která by měla být zahrnuta do znalostních systémů od samého počátku, většina tréninkových rutin NLP se učí informace s nepřiměřenou úrovní důvěry ke zdrojovým datům, včetně diskurzu (jako je falešné zprávy), které mohly být publikovány na předtím důvěryhodných kanálech.

Proto je klíčovým problémem identifikovat konsensuálně spolehlivý zdroj faktů v prostředí, kde šíření nesprávných “zpráv” prostřednictvím sociálních médií by automaticky udělilo autoritu logice strojového učení, alespoň do té doby, než se fenomén falešných zpráv stal kritickou oblastí zájmu v tomto oboru v posledních letech.

Určení nejlepšího přístupu k nezodpověditelným otázkám

Aby se určilo vhodný přístup pro řešení otázky, která obsahuje nesprávné informace, výzkumníci provedli 100 takových dotazů prostřednictvím čtyř různých modelů Q&A a požádali lidské subjekty, aby vybraly nejlepší nebo nejméně problematickou odpověď, kterou modely vygenerovaly.

Čtyři možné architektonické výsledky “špatné” otázky byly: ‘Nelze odpovědět’ – kde systém Q&A s uzavřenou knihou efektivní ukončí dotaz bez dalšího vysvětlení; ‘Výklad založený na selhání předpokladu’ – kde systém selže při ověření nesprávného předpokladu, efektivní “nelze odpovědět” odpověď s přidáním vysvětlení; ‘Extraktivní vysvětlení’ – kde systém načte topicky související citaci z Wikipedie a připojí ji k úvodnímu ‘Tato otázka je nezodpověditelná, protože…’; a ‘Přepis otevřené domény’ – kde soutěžní systém hledá další zdroje z Wikipedie.

Tento příklad čtyř možných odpovědí na zdánlivě ‘nezodpověditelnou’ otázku ilustruje složitost pokusu o konkurenční doménový řešení problému.

Během testů pět účastníků (náborem na interní platformě Google Crowdsourcing) preferovalo předpokladem založené odpovědi, což vedlo výzkumníky k vývoji nového rámce pro rozložení a ověření otázek.

V novém systému jsou lingvistické spouštěče získány z otázky pravidlovým generátorem, který dekonstruuje větu na předpokládané skutečnosti. Pokud jsou z otázky odvozeny více předpokladů, každý z nich je prozkoumán a bude přispívat k finální odpovědi, pokud se týkají chybných předpokladů z původní otázky.

Datové sady

Předpoklady generované v počáteční fázi byly ručně upraveny, aby vytvořily ověřovací datovou sadu s “zlatými” předpoklady. Jakékoli předpoklady, které vyšly z větvení dotazu, ale nebyly přítomny v původních otázkách, byly odstraněny.

Dva autoři práce poté ručně anotovali 462 předpokladů z hlediska ano/ne ověřitelnosti, na základě relevantní stránky Wikipedie spojené s každou otázkou. Případy nesouhlasu byly vyřešeny v následné diskusi před tím, než byly přidány do datové sady.

Výzkumníci použili zero-shot NLI, úloha klasifikace premise/hypotézy, která vyžadovala dekonstrukci článků Wikipedie souvisejících s otázkami. Jelikož tento proces vede k mnoha více párům, než otázka může vyžadovat nebo model podporovat, filtrované výsledky byly poté agregovány a označeny.

Výsledky a formulace odpovědí

Nejpůsobivější výsledky byly získány nejnáročnějším řešením: jemně vyladěným, pravidlovým/NLI hybridním generovaným z ALBERT QNLI s větami a předpoklady Wiki.

Výkon ověřovacích modelů, kde ‘Wiki věty’ používá věty získané z článků Wikipedie souvisejících s otázkami, a ‘Wiki předpoklady’ jsou generované předpoklady z těchto vět.

Pomocí této formulace výzkumníci vyvinuli systém šablon, kde negující fakt z Wikipedie byl připojen k ‘Tato otázka je nezodpověditelná, protože… ‘ a podobným frázím. Ačkoli to není ideální řešení, autoři navrhují, že odpovědi založené na neověřitelnosti pravděpodobně sníží výskyt falešných negativ.

Systém byl nakonec implementován v Extended Transformer Construction (ETC) modelu.

Důsledky

V závislosti na jeho konečném výkonu ve skutečném světě by se dalo argumentovat, že celý tento přístup může vést k pouhé substituci ‘neověřitelného’ za ‘nezodpověditelné’, v případech, kdy podpůrný výzkumný systém nemůže vyhodnotit užitečnou korekci chybného předpokladu otázky. Efektivně se zdá, že buduje infrastrukturu pro budoucí a lepší ověřovací systémy.

Výzkumníci již uznávají, že náklady na token-based API požadavky jsou omezujícím faktorem při formulaci delších odpovědí, které tento systém vygeneruje, a musí se předpokládat, že dodatečná zátěž “živého” výzkumu otázky pravděpodobně přidá latenci i velkým systémům, jako je GPT-3, protože rychlost odpovědi takových systémů dosud závisela na obecné inkorporaci znalostí během tréninku, spíše než na rozsáhlých, síťových ověřovacích rutinách.

Kromě toho výzkumníci uvádějí, že systém目前 má omezení související s parsováním semantických aspektů textu:

Například, kdo věří, že je Estella matkou obsahuje vlastnické podřazení pod nefaktivní sloveso věřit , ale náš generátor by přesto vygeneroval ‘Estella’ má ‘matku’.

Nicméně, tým předpokládá nové a flexibilnější systémy otázek a odpovědí, které budou vyvinuty na základě tohoto výzkumu:

V budoucnu plánujeme postavit na této práci návrhem systémů Q&A, které jsou více robustní a kooperativní. Například různé typy selhání předpokladů by mohly být řešeny více flexibilními strategiemi odpovědí – například, porušení předpokladů jedinečnosti by mohlo být lépe zpracováno poskytováním všech možných odpovědí, místo toho, aby se uvádělo, že předpoklad jedinečnosti byl porušen.

Martin Anderson

Spisovatel o strojovém učení, doménový specialista na syntézu lidského obrazu. Bývalý vedoucí výzkumného obsahu ve společnosti Metaphysic.ai.
Osobní stránky: martinanderson.ai