Umělá inteligence

NLP modely se snaží porozumět rekurzivním podstatným frázím

aktualizováno on 9. prosince 2022

Výzkumníci z USA a Číny zjistili, že žádný z předních modelů zpracování přirozeného jazyka (NLP) se nezdá být schopen ve výchozím nastavení rozluštit anglické věty, které obsahují rekurzivní podstatné jmenné fráze (NP) a „bojovat“ o individualizaci centrálního významu. v úzce souvisejících příkladech, jako je Můj oblíbený nový film a Můj oblíbený film (každý z nich má jiný význam).

V titulkovém příkladu z novin je zde menší hlavolam, který se dětem často nedaří vybrat: druhý míček je zelený, ale pátý míček je „druhý zelený míček“. Zdroj: https://arxiv.org/pdf/2112.08326.pdf

V titulkovém příkladu z novin je zde menší hlavolam, který děti často nedokážou vyndat: druhý míček je zelený, ale pátý míč je 'druhý zelený míč'. Zdroj: https://arxiv.org/pdf/2112.08326.pdf

Výzkumníci nastavili výzvu Recursive Noun Phrase Challenge (RNPC) na několik lokálně nainstalovaných modelů generování jazyků s otevřeným zdrojovým kódem: OpenAI GPT-3*, Google BERTIa Facebook RoBERTa a BART, zjistili, že tyto nejmodernější modely dosahovaly pouze „náhodného“ výkonu. Docházejí k závěru^†:

„Výsledky ukazují, že nejmodernější (SOTA) LM jemně doladěny na standardní benchmarky stejného formátu se všichni potýkají s naším souborem dat, což naznačuje, že cílové znalosti nejsou snadno dostupné.“

Příklady minimálních párů ve výzvě RNPC, kde modely SOTA dělaly chyby.

Ve výše uvedených příkladech modely například nedokázaly rozlišit sémantickou disparitu mezi nimi mrtvé nebezpečné zvíře (tj. predátor, který nepředstavuje žádnou hrozbu, protože je mrtvý) a a nebezpečné mrtvé zvíře (jako je mrtvá veverka, která může obsahovat škodlivý virus a je aktuálně aktivní hrozbou).

(Navíc, i když se toho papír nedotýká, často se také používá výraz „mrtvý“. jako příslovce, která neřeší ani jeden případ)

Výzkumníci však také zjistili, že další nebo doplňkové školení, které zahrnuje materiál RNPC, může problém vyřešit:

"Předtrénované jazykové modely s výkonem SOTA na benchmarcích NLU mají slabé zvládnutí těchto znalostí, ale přesto se je mohou naučit, když jsou vystaveny malému množství dat z RNPC."

Výzkumníci tvrdí, že schopnost jazykového modelu procházet rekurzivními strukturami tohoto typu je nezbytná pro následné úkoly, jako je jazyková analýza, překlad, a zvláštní důvod pro její důležitost v rutinách detekce škod:

„Zvažujeme scénář, kdy uživatel komunikuje s agentem zaměřeným na úkoly, jako je Siri nebo Alexa, a agent potřebuje určit, zda je aktivita související s uživatelským dotazem potenciálně škodlivá. [tj. nezletilým]. Tuto úlohu jsme zvolili, protože mnoho falešně pozitivních výsledků pochází z rekurzivních NP.

'Například, jak vyrobit domácí bombu je zjevně škodlivé jak vyrobit domácí bombu do koupele je neškodný.“

Projekt papír je s názvem Je „můj oblíbený nový film“ můj oblíbený film? Zkoumání porozumění rekurzivním podstatným frázíma pochází od pěti výzkumníků z Pennsylvánské univerzity a jednoho z Pekingské univerzity.

Data a metoda

I když předchozí práce ano studoval syntaktická struktura rekurzivních NP a sémantická kategorizace modifikátorůAni jeden z těchto přístupů není podle výzkumníků dostatečný k řešení tohoto problému.

Na základě použití rekurzivních jmenných frází se dvěma modifikátory se proto výzkumníci snažili zjistit, zda v systémech SOTA NLP existují nezbytné znalosti (neexistují); zda je lze naučit (může); co se NLP systémy mohou naučit z rekurzivních NP; a jakým způsobem mohou tyto znalosti prospět následným aplikacím.

Datový soubor, který výzkumníci použili, byl vytvořen ve čtyřech fázích. První byla konstrukce modifikačního lexikonu obsahujícího 689 příkladů z dřívější literatury a románových děl.

Dále výzkumníci shromáždili rekurzivní NP z literatury, existujících korpusů a dodatků jejich vlastního vynálezu. Textové zdroje zahrnovaly Penn TreebankA Komentovaný Gigaword korpus.

Poté tým najal předem prověřené vysokoškoláky, aby vytvořili příklady pro tři úkoly, kterým budou jazykové modely čelit, a následně je ověřili na 8,260 XNUMX platných instancí.

Nakonec bylo najato více předem prověřených vysokoškolských studentů, tentokrát prostřednictvím Amazon Mechanical Turk, aby označili každou instanci jako úkol lidské inteligence (HIT) a rozhodovali spory na většinovém základě. To zkrátilo počet případů na 4,567 3,790, které byly dále filtrovány na XNUMX XNUMX vyváženějších případů.

Výzkumníci upravili různé existující soubory dat, aby formulovali tři části svých testovacích hypotéz, včetně MNLI, SNLI, MPE a ADEPT, školení všech samotných SOTA modelů s výjimkou modelu HuggingFace, kde byl použit kontrolní bod.

výsledky

Výzkumníci zjistili, že všechny modely „bojují“ s úkoly RNPC, oproti spolehlivému skóre přesnosti 90 %+ u lidí, přičemž modely SOTA fungují na úrovni „náhody“ (tj. bez jakéhokoli důkazu o vrozených schopnostech versus náhodná náhoda v reakci).

Výsledky testů vědců. Zde jsou jazykové modely testovány proti jejich přesnosti na existujícím benchmarku, přičemž centrální linie představuje ekvivalentní lidský výkon v úkolech.

Sekundární linie vyšetřování naznačují, že tyto nedostatky lze kompenzovat ve fázi školení nebo dolaďování potrubí modelu NLP specifickým zahrnutím znalostí rekurzivních podstatných frází. Jakmile bylo toto doplňkové školení provedeno, modely byly dosaženy „silný nulový výkon při vnějších úlohách detekce poškození“.

Výzkumníci slibují, že uvolní kód pro tuto práci na https://github.com/veronica320/Recursive-NPs.

Původně publikováno 16. prosince 2021 – 17. prosince 2021, 6:55 GMT+2: Opravený nefunkční hypertextový odkaz.

* GPT-3 Ada, který je nejrychlejší, ale ne nejlepší ze série. Větší „výkladní“ model Davinci však není k dispozici pro jemné doladění, které zahrnuje pozdější frázi experimentů výzkumníků.

^† Můj převod inline citací na hypertextové odkazy.