Artificiell intelligens

Kampen för att stoppa AI från att fuska på tester

Uppdaterad on December 9, 2022

Nya forskningsrön från ett kinesiskt universitet ger en inblick i varför generativa naturliga språkbehandlingsmodeller som GPT-3 tenderar att "fuska" när de ställs en svår fråga, vilket ger svar som kan vara tekniskt korrekta, men utan någon verklig förståelse av varför svaret är korrekt; och varför de visar liten eller ingen förmåga att förklara logiken bakom sina "enkla" svar. Forskarna föreslår också några nya metoder för att få systemen att "lära hårdare" under träningsfasen.

Problemet är dubbelt: för det första designar vi system som försöker uppnå resultat snabbt och med en optimal resursanvändning. Även där, som med GPT-3, resurserna kan vara avsevärt större än vad det genomsnittliga NLP-forskningsprojektet kan uppbringa, genomsyrar denna kultur av resultatdriven optimering fortfarande metodiken, eftersom den har kommit att dominera akademisk konvention.

Följaktligen belönar våra utbildningsarkitekturer modeller som konvergerar snabbt och ger uppenbarligen passande svar på frågor, även om NLP-modellen därefter inte kan motivera sitt svar eller att visa hur den kommit fram till sina slutsatser.

En tidig disposition att fuska

Detta beror på att modellen lär sig "genvägssvar" långt tidigare i utbildningen än den lär sig mer komplicerade typer av kunskapsinhämtning. Eftersom ökad noggrannhet ofta belönas ganska urskillningslöst under utbildningen, prioriterar modellen sedan varje tillvägagångssätt som låter den besvara en fråga "glimt", och utan verklig insikt.

Eftersom genvägsinlärning oundvikligen kommer att representera först framgångar under träningen, kommer sessionen naturligtvis att tendera bort från den svårare uppgiften att få ett användbart och mer komplett epistemologiskt perspektiv, som kan innehålla djupare och mer insiktsfulla lager av tillskrivning och logik.

Mata AI De 'enkla' svaren

Det andra problemet är att även om nyare forskningsinitiativ har studerade AI:s tendens att "fuska" på detta sätt, och har identifierat fenomenet "genvägar", har det hittills inte gjorts några försök att klassificera "genvägs"-aktiverande material i en bidragande datauppsättning, vilket skulle vara det logiska första steget för att ta itu med vad kan visa sig vara ett grundläggande arkitektoniskt fel i system för maskinläsförståelse (MRC).

Den nya papper, ett samarbete mellan Wangxuan Institute of Computer Technology och MOE Key Laboratory of Computational Linguistics vid Peking University, testar olika språkmodeller mot en nyligen kommenterad datauppsättning som inkluderar klassificeringar för "enkla" och "svåra" lösningar på en möjlig fråga.

Källa: https://arxiv.org/pdf/2106.01024.pdf

Datauppsättningen använder parafrasering som ett kriterium för de mer komplicerade och djupa svaren, eftersom en semantisk förståelse är nödvändig för att omformulera erhållen kunskap. Däremot kan "genvägssvaren" använda symboler som datum och andra inkapslande nyckelord för att producera ett svar som är faktamässigt korrekt, men utan något sammanhang eller resonemang.

Genvägskomponenten i kommentarerna har frågeordsmatchning (QWM) och enkel matchning (SpM). För QWM använder modellen entiteter som extraherats från den tillhandahållna textdatan och spridningskontexten; för SpM identifierar modellen överlappning mellan svarsmeningar och frågor, som båda tillhandahålls i träningsdata.

Genvägsdata Nästan "viral" i inflytande i en datauppsättning

Forskarna hävdar att datamängder tenderar att innehålla en hög andel genvägsfrågor, vilket gör att tränade modeller förlitar sig på genvägsknep.

De två modeller som användes i experimenten var BiDAF och Googles BERTI-bas. Forskarna observerar att även när de tränas på datasetvariationer med en högre andel "svåra" frågor, presterar båda modellerna fortfarande bättre på genvägsfrågor än svårare omskrivna frågor, trots det lilla antalet exempel i datamängderna.

Detta presenterar "genvägsdata" nästan i ett virussammanhang – att det behöver finnas väldigt lite av det i en datauppsättning för att det ska kunna antas och prioriteras i utbildning, enligt konventionella standarder och praxis inom NLP.

Bevisa fusket

En metod som forskningen använder för att bevisa hur bräckligheten i ett genvägssvar är att ersätta ett "lätt" enhetsord med ett avvikande ord. Om en genvägsmetod har använts, kan logiken för det "lurade" svaret inte tillhandahållas; men där svaret kom från ett djupare sammanhang och semantisk utvärdering av ett bredare utbud av bidragande text, är det möjligt för systemet att dekonstruera felet och rekonstruera ett korrekt svar.

Att ersätta 'Beyoncé' (en person) för 'Amerika' (en plats), avslöjar om modellen har någon bakgrundslogik för sitt svar.

Genvägar på grund av ett ekonomiskt imperativ

Angående några av de arkitektoniska orsakerna till att genvägar är så prioriterade i NLP-träningsarbetsflöden, kommenterar författarna "MRC-modeller kan lära sig genvägstricken, som QWM, med mindre beräkningsresurser än förståelseutmaningarna, som att identifiera parafrasering".

Detta kan alltså vara ett oavsiktligt resultat av standardoptimering och resursbevarande filosofier i tillvägagångssätt för maskinell läsförståelse, och trycket att uppnå resultat med begränsade resurser inom snäva tidsramar.

Forskarna noterar också:

"[Eftersom] genvägstricket kan användas för att besvara de flesta träningsfrågorna korrekt, kanske de begränsade olösta frågorna kvarstår kanske inte motiverar modellerna att utforska sofistikerade lösningar som kräver utmanande färdigheter."

Om uppsatsens resultat senare bekräftas, verkar det som om det stora och ständigt växande området för dataförbehandling kan behöva betrakta "dolda spjälsängar" i data som ett problem som ska åtgärdas på lång sikt, eller annars revidera NLP-arkitekturer att prioritera mer utmanande rutiner för dataintag.