stomp Die stryd om KI te keer om op toetse te kul - Unite.AI
Verbinding met ons

Kunsmatige Intelligensie

Die stryd om KI te keer om op toetse te kul

mm
Opgedateer on

Nuwe navorsingsbevindinge van 'n Chinese universiteit bied 'n insig in waarom generatiewe natuurlike taalverwerkingsmodelle soos GPT-3 geneig is om te 'kul' wanneer 'n moeilike vraag gevra word, wat antwoorde lewer wat tegnies korrek mag wees, maar sonder enige werklike begrip van hoekom die antwoord is korrek; en hoekom hulle min of geen vermoë toon om die logika agter hul 'maklike' antwoorde te verduidelik nie. Die navorsers stel ook 'n paar nuwe metodes voor om die stelsels 'harder te maak' tydens die opleidingsfase.

Die probleem is tweeledig: eerstens ontwerp ons stelsels wat poog om resultate vinnig en met 'n optimale gebruik van hulpbronne te bereik. Selfs waar, soos met GPT-3, die hulpbronne aansienlik groter kan wees as wat die gemiddelde NLP-navorsingsprojek in staat is om op te spoor, deurdring hierdie kultuur van resultaatgedrewe optimalisering steeds die metodologie, omdat dit die akademiese konvensie oorheers het.

Gevolglik beloon ons opleidingsargitekture modelle wat vinnig konvergeer en klaarblyklik toepaslike antwoorde op vrae lewer, selfs al is die NLP-model daarna nie in staat om sy reaksie te regverdig nie, of om te demonstreer hoe dit tot sy gevolgtrekkings gekom het nie.

'n Vroeë ingesteldheid om te kul

Dit kom voor omdat die model 'kortpad-reaksies' baie vroeër in die opleiding leer as wat dit meer ingewikkelde tipes kennisverwerwing leer. Aangesien verhoogde akkuraatheid dikwels heel onoordeelkundig deur opleiding beloon word, prioritiseer die model dan enige benadering wat dit 'n vraag 'glibberig' sal laat beantwoord, en sonder werklike insig.

Aangesien kortpadleer onvermydelik die eerste suksesse tydens opleiding, sal die sessie natuurlik weg neig van die moeiliker taak om 'n bruikbare en meer volledige epistemologiese perspektief te verkry, wat dieper en meer insiggewende lae van toeskrywing en logika kan bevat.

Voed KI Die 'Maklike' Antwoorde

Die tweede probleem is dat selfs al het onlangse navorsingsinisiatiewe het bestudeer KI se neiging om op hierdie manier te 'verneuk', en het die verskynsel van 'kortpaaie' geïdentifiseer, daar was tot nou toe geen poging om 'kortpad'-aktiverende materiaal in 'n bydraende datastel te klassifiseer nie, wat die logiese eerste stap sou wees om aan te spreek wat kan 'n fundamentele argitektoniese fout in masjienleesbegrip (MRC)-stelsels wees.

Die nuwe papier, 'n samewerking tussen die Wangxuan Institute of Computer Technology en die MOE Key Laboratory of Computational Linguistics aan die Peking Universiteit, toets verskeie taalmodelle teen 'n nuut geannoteerde datastel wat klassifikasies vir 'maklike' en 'moeilike' oplossings vir 'n moontlike vraag insluit.

Bron: https://arxiv.org/pdf/2106.01024.pdf

Bron: https://arxiv.org/pdf/2106.01024.pdf

Die datastel gebruik parafrasering as 'n kriteria vir die meer ingewikkelde en diepgaande antwoorde, aangesien 'n semantiese begrip nodig is om verkreë kennis te herformuleer. Daarteenoor kan die 'kortpad'-antwoorde tekens soos datums en ander inkapselende sleutelwoorde gebruik om 'n antwoord te produseer wat feitelik akkuraat is, maar sonder enige konteks of redenasie.

Die kortpadkomponent van die aantekeninge bevat vraagwoordpassing (QWM) en eenvoudige passing (SpM). Vir QWM maak die model gebruik van entiteite wat uit die verskafde teksdata en versendingskonteks onttrek is; vir SpM identifiseer die model oorvleueling tussen antwoordsinne en vrae, wat albei in die opleidingsdata verskaf word.

Kortpaddata byna 'viraal' in invloed in 'n datastel

Die navorsers voer aan dat datastelle geneig is om 'n groot persentasie kortpadvrae te bevat, wat opgeleide modelle op kortpadtruuks laat staatmaak.

Die twee modelle wat in die eksperimente gebruik is, was BiDAF en Google se BERT-basis. Die navorsers neem waar dat selfs wanneer hulle opgelei word op datastelvariasies met 'n groter persentasie 'moeilike' vrae, beide modelle steeds beter presteer op kortpadvrae as moeiliker geparafraseerde vrae, ten spyte van die klein aantal voorbeelde in die datastelle.

Dit bied 'kortpaddata' amper in die konteks van 'n virus - dat daar baie min daarvan in 'n datastel moet wees sodat dit in opleiding aangeneem en geprioritiseer kan word, onder konvensionele standaarde en praktyke in NLP.

Bewys die Cheat

Een metode wat die navorsing gebruik om te bewys hoe die broosheid van 'n kortpad-antwoord is om 'n 'maklike' entiteitswoord vir 'n anomale woord te vervang. Waar 'n kortpadmetode gebruik is, kan die logika van die 'verneuk'-reaksie nie verskaf word nie; maar waar die antwoord verskaf is vanuit dieper konteks en semantiese evaluering van 'n wyer reeks bydraende teks, is dit moontlik vir die stelsel om die fout te dekonstrueer en 'n korrekte antwoord te rekonstrueer.

Deur 'Beyoncé' ('n persoon) vir 'Amerika' ('n ligging) te vervang, onthul of die model enige agtergrondlogika vir sy antwoord het.

Deur 'Beyoncé' ('n persoon) vir 'Amerika' ('n ligging) te vervang, onthul of die model enige agtergrondlogika vir sy antwoord het.

Kortpaaie as gevolg van 'n ekonomiese imperatief

Met betrekking tot sommige van die argitektoniese redes waarom kortpaaie so geprioritiseer word in NLP-opleidingswerkvloeie, lewer die skrywers kommentaar 'MRC-modelle kan die kortpad-truuks, soos QWM, leer met minder rekenaarhulpbronne as die begripsuitdagings, soos die identifisering van parafrasering'.

Dit kan dus 'n onbedoelde resultaat wees van standaardoptimalisering en hulpbronbewaringsfilosofieë in benaderings tot masjienleesbegrip, en die druk om resultate met beperkte hulpbronne in beperkte tydraamwerke te verkry.

Die navorsers merk ook op:

'[Aangesien] die kortpad-truuk gebruik kan word om die meeste van die opleidingsvrae korrek te beantwoord, sal die beperkte onopgeloste vrae wat oorbly dalk nie die modelle motiveer om gesofistikeerde oplossings te verken wat uitdagende vaardighede vereis nie.'

As die vraestel se resultate later bevestig word, wil dit voorkom asof die groot en steeds groeiende veld van datavoorverwerking dalk 'versteekte krippe' in data moet beskou as 'n probleem wat op die lang termyn aangespreek moet word, of anders NLP-argitekture moet hersien. om meer uitdagende roetines vir data-inname te prioritiseer.