výhonek The Struggle to Stop AI from Cheating on Tests - Unite.AI
Spojte se s námi

Umělá inteligence

Boj o zastavení podvádění AI na testech

mm
aktualizováno on

Nové výsledky výzkumu z čínské univerzity nabízejí pohled na to, proč modely generativního zpracování přirozeného jazyka, jako je GPT-3, mají tendenci „podvádět“, když jsou položeny obtížné otázky, a produkovat odpovědi, které mohou být technicky správné, ale bez jakéhokoli skutečného pochopení. proč odpověď je správná; a proč prokazují malou nebo žádnou schopnost vysvětlit logiku jejich „snadných“ odpovědí. Výzkumníci také navrhují některé nové metody, aby se systémy během tréninkové fáze „učily tvrději“.

Problém je dvojí: zaprvé navrhujeme systémy, které se snaží dosáhnout výsledků rychle as optimálním využitím zdrojů. I tam, kde, jako u GPT-3, mohou být zdroje podstatně větší, než je průměrný výzkumný projekt NLP schopen shromáždit, tato kultura optimalizace řízené výsledky stále prostupuje metodologii, protože se stala dominantou akademické konvence.

V důsledku toho naše školicí architektury odměňují modely, které rychle konvergují a vytvářejí zjevně výstižné odpovědi na otázky, i když model NLP následně není schopen zdůvodnit svou odpověď nebo demonstrovat, jak dospěl ke svým závěrům.

Včasná dispozice k podvádění

K tomu dochází, protože model se učí „zkratkové reakce“ mnohem dříve v tréninku, než se učí složitější typy získávání znalostí. Vzhledem k tomu, že zvýšená přesnost je často během tréninku odměňována zcela bez rozdílu, model pak upřednostňuje jakýkoli přístup, který mu umožní odpovědět na otázku „jemně“ a bez skutečného náhledu.

Protože zkratkové učení bude nevyhnutelně představovat První Úspěchy během tréninku budou mít přirozeně tendenci se vyhýbat obtížnějšímu úkolu získat užitečnou a úplnější epistemologickou perspektivu, která může obsahovat hlubší a pronikavější vrstvy atribuce a logiky.

Krmení AI „snadnými“ odpověďmi

Druhým problémem je, že i když nedávné výzkumné iniciativy ano studoval Tendence umělé inteligence „podvádět“ tímto způsobem a identifikovat fenomén „zkratek“, dosud neexistovala žádná snaha klasifikovat materiál umožňující „zkratky“ v přispívajícím souboru dat, což by byl logický první krok při řešení se může ukázat jako základní architektonická chyba v systémech strojového čtení s porozuměním (MRC).

Nový papír, spolupráce mezi Wangxuan Institute of Computer Technology a MOE Key Laboratory of Computational Linguistics na Pekingské univerzitě, testuje různé jazykové modely proti nově anotovaný datový soubor který zahrnuje klasifikaci pro „snadná“ a „těžká“ řešení možné otázky.

Zdroj: https://arxiv.org/pdf/2106.01024.pdf

Zdroj: https://arxiv.org/pdf/2106.01024.pdf

Soubor dat používá parafrázování jako kritérium pro složitější a hlubší odpovědi, protože k přeformulování získaných znalostí je nezbytné sémantické porozumění. Naproti tomu „zkratkové“ odpovědi mohou používat tokeny, jako jsou data a další zapouzdřující klíčová slova, k vytvoření odpovědi, která je fakticky přesná, ale bez jakéhokoli kontextu nebo zdůvodnění.

Komponenta zkratek anotací obsahuje porovnávání slov otázky (QWM) a jednoduché shody (SpM). Pro QWM model využívá entity extrahované z dodaných textových dat a kontextu odložení; pro SpM model identifikuje překrývání mezi odpovědními větami a otázkami, které jsou obě uvedeny v trénovacích datech.

Data zkratek téměř 'virový' vliv na datovou sadu

Výzkumníci tvrdí, že datové soubory mají tendenci obsahovat vysoký podíl zkratkových otázek, díky nimž se trénované modely spoléhají na triky zkratek.

Dva modely použité v experimentech byly BiDAF a společnosti Google BERTI-základna. Výzkumníci pozorují, že i když jsou trénovány na variacích datových souborů s vyšším podílem „obtížných“ otázek, oba modely stále fungují lépe na zkrácených otázkách než na obtížnější parafrázované otázky, a to navzdory malému počtu příkladů v souborech dat.

To představuje „zástupková data“ téměř v kontextu viru – že jich v datové sadě musí být přítomno velmi málo, aby mohly být přijaty a upřednostněny při školení podle konvenčních standardů a postupů v NLP.

Proving The Cheat

Jedna metoda, kterou výzkum používá, aby dokázal, jak křehkost zkrácené odpovědi spočívá v nahrazení anomálního slova slovem „snadné“ entity. Pokud byla použita zkratková metoda, nelze poskytnout logiku „podvedené“ odpovědi; ale tam, kde byla odpověď poskytnuta z hlubšího kontextu a sémantického vyhodnocení širšího rozsahu přispívajícího textu, je možné, aby systém chybu dekonstruoval a rekonstruoval správnou odpověď.

Nahrazením „Beyoncé“ (osoba) za „Ameriku“ (místo) odhalíte, zda má model pro svou odpověď nějakou logiku.

Nahrazením „Beyoncé“ (osoba) za „Ameriku“ (místo) odhalíte, zda má model pro svou odpověď nějakou logiku.

Zkratky v důsledku ekonomického imperativu

Pokud jde o některé z architektonických důvodů, proč jsou zkratky tak upřednostňovány v pracovních postupech školení NLP, autoři komentují „Modely MRC se mohou naučit triky zkratek, jako je QWM, s menšími výpočetními prostředky než problémy s porozuměním, jako je identifikace parafrází“.

To by pak mohlo být nezamýšleným výsledkem standardní optimalizace a filozofie zachování zdrojů v přístupech k porozumění strojovému čtení a tlaku na získání výsledků s omezenými zdroji v krátkých časových rámcích.

Výzkumníci také poznamenávají:

'[Protože] trik se zkratkou lze použít ke správnému zodpovězení většiny školicích otázek, omezené nevyřešené otázky nemusí motivovat modely ke zkoumání sofistikovaných řešení, která vyžadují náročné dovednosti.'

Pokud se výsledky článku následně potvrdí, bude se zdát, že rozsáhlá a stále rostoucí oblast předzpracování dat bude možná muset považovat „skryté jesličky“ v datech za problém, který je třeba řešit v dlouhodobém horizontu, nebo jinak revidovat architektury NLP. upřednostňovat náročnější rutiny pro příjem dat.