škrbina Borba za sprječavanje umjetne inteligencije u varanju na testovima - Unite.AI
Povežite se s nama

Umjetna inteligencija

Borba za sprječavanje AI u varanju na testovima

mm
Ažurirano on

Nova otkrića istraživanja kineskog sveučilišta nude uvid u to zašto generativni modeli obrade prirodnog jezika kao što je GPT-3 imaju tendenciju 'varati' kada im se postavi teško pitanje, dajući odgovore koji mogu biti tehnički točni, ali bez ikakvog stvarnog razumijevanja zašto odgovor je točan; i zašto pokazuju malu ili nikakvu sposobnost da objasne logiku iza svojih 'lakih' odgovora. Istraživači također predlažu neke nove metode kako bi sustavi 'učili više' tijekom faze obuke.

Problem je dvojak: prvo, dizajniramo sustave koji pokušavaju postići rezultate brzo i uz optimalno korištenje resursa. Čak i tamo gdje, kao kod GPT-3, resursi mogu biti znatno veći nego što prosječni NLP istraživački projekt može skupiti, ova kultura optimizacije usmjerene na rezultate još uvijek prožima metodologiju, jer je počela dominirati akademskom konvencijom.

Posljedično, naše strukture obuke nagrađuju modele koji brzo konvergiraju i proizvode naizgled odgovarajuće odgovore na pitanja, čak i ako NLP model naknadno ne može opravdati svoj odgovor ili pokazati kako je došao do svojih zaključaka.

Rana sklonost varanju

To se događa zato što model nauči 'odgovore prečaca' mnogo ranije u obuci nego što nauči kompliciranije vrste stjecanja znanja. Budući da se povećana točnost često nagrađuje prilično neselektivno tijekom obuke, model tada daje prioritet svakom pristupu koji će mu omogućiti da odgovori na pitanje 'brzo', i bez pravog uvida.

Budući da će učenje prečacima neizbježno predstavljati prvi uspjeha tijekom obuke, sesija će prirodno težiti dalje od težeg zadatka stjecanja korisne i potpunije epistemološke perspektive, koja može sadržavati dublje i pronicljivije slojeve atribucije i logike.

Hranjenje AI 'Laki' odgovori

Drugi je problem taj što iako su novije istraživačke inicijative studirao Sklonost umjetne inteligencije da 'vara' na ovaj način i identificira fenomen 'prečaca', do sada nije bilo pokušaja da se klasificiraju materijali koji omogućuju 'prečace' u pridonosnom skupu podataka, što bi bio logičan prvi korak u rješavanju onoga što može se pokazati temeljnom arhitektonskom greškom u sustavima za strojno čitanje s razumijevanjem (MRC).

Novo papir, suradnja između Wangxuan Institute of Computer Technology i MOE Key Laboratory of Computational Linguistics na Sveučilištu u Pekingu, testira različite jezične modele u odnosu na novooznačeni skup podataka koji uključuje klasifikacije za 'laka' i 'teška' rješenja za moguće pitanje.

Izvor: https://arxiv.org/pdf/2106.01024.pdf

Izvor: https://arxiv.org/pdf/2106.01024.pdf

Skup podataka koristi parafraziranje kao kriterij za kompliciranije i dublje odgovore, jer je potrebno semantičko razumijevanje kako bi se preformuliralo dobiveno znanje. Nasuprot tome, odgovori 'prečaca' mogu koristiti tokene kao što su datumi i druge ključne riječi za enkapsulaciju, kako bi proizveli odgovor koji je činjenično točan, ali bez ikakvog konteksta ili obrazloženja.

Komponenta prečaca zabilješki ima podudaranje riječi upitnika (QWM) i jednostavno podudaranje (SpM). Za QWM, model koristi entitete izvađene iz dostavljenih tekstualnih podataka i konteksta odbacivanja; za SpM, model identificira preklapanje između rečenica odgovora i pitanja, a oba su navedena u podacima o obuci.

Podaci prečaca koji su gotovo 'viralni' po utjecaju u skupu podataka

Istraživači tvrde da skupovi podataka obično sadrže visok udio pitanja prečaca, zbog čega se obučeni modeli oslanjaju na trikove prečaca.

Dva modela korištena u pokusima bila su BiDAF i Googlea BERTI-baza. Istraživači primjećuju da čak i kada su obučeni na varijacijama skupova podataka s većim udjelom 'teških' pitanja, oba modela i dalje imaju bolje rezultate na brzim pitanjima od težih parafraziranih pitanja, unatoč malom broju primjera u skupovima podataka.

Ovo predstavlja 'podatke prečaca' gotovo u kontekstu virusa – da ih mora biti vrlo malo u skupu podataka kako bi se usvojili i odredili prioritet u obuci, prema konvencionalnim standardima i praksama u NLP-u.

Dokazivanje varanja

Jedna od metoda koju istraživanje koristi da dokaže kako je krhkost brzog odgovora zamjena 'lake' riječi entiteta za anomalnu riječ. Gdje je korištena metoda prečaca, ne može se pružiti logika 'prevarenog' odgovora; ali tamo gdje je odgovor pružen iz dubljeg konteksta i semantičke procjene šireg raspona pridonosnog teksta, moguće je da sustav dekonstruira pogrešku i rekonstruira točan odgovor.

Zamjena 'Beyoncé' (osoba) za 'Ameriku' (mjesto), otkriva ima li model ikakvu pozadinsku logiku za svoj odgovor.

Zamjena 'Beyoncé' (osoba) za 'Ameriku' (mjesto), otkriva ima li model ikakvu pozadinsku logiku za svoj odgovor.

Prečaci zbog ekonomskog imperativa

Što se tiče nekih arhitektonskih razloga zašto su prečaci toliko prioritetni u radnim procesima NLP treninga, autori komentiraju 'MRC modeli mogu naučiti trikove prečaca, poput QWM-a, s manje računalnih resursa od izazova razumijevanja, poput identificiranja parafraziranja'.

To bi, dakle, mogao biti nenamjerni rezultat standardne optimizacije i filozofije očuvanja resursa u pristupima strojnom razumijevanju čitanja, te pritiska da se dobiju rezultati s ograničenim resursima u tijesnim vremenskim okvirima.

Istraživači također primjećuju:

'[Budući] da se trik s prečacima može koristiti za točan odgovor na većinu pitanja za obuku, ograničena preostala neriješena pitanja možda neće motivirati modele da istražuju sofisticirana rješenja koja zahtijevaju izazovne vještine.'

Ako se rezultati rada naknadno potvrde, čini se da golemo i stalno rastuće područje predobrade podataka možda treba razmotriti 'skrivene jasle' u podacima kao problem koji treba dugoročno riješiti ili revidirati NLP arhitekture za davanje prioriteta izazovnijim rutinama za unos podataka.