taló La lluita per evitar que la IA faci trampes a les proves - Unite.AI
Connecteu-vos amb nosaltres

Intel·ligència Artificial

La lluita per evitar que l'IA enganyi les proves

mm
actualitzat on

Les noves investigacions d'una universitat xinesa ofereixen una visió de per què els models de processament del llenguatge natural generatius com el GPT-3 tendeixen a "enganyar" quan es fa una pregunta difícil, produint respostes que poden ser tècnicament correctes, però sense cap comprensió real de Per què la resposta és correcta; i per què demostren poca o cap capacitat per explicar la lògica darrere de les seves respostes "fàcils". Els investigadors també proposen alguns mètodes nous per fer que els sistemes "estudiin més" durant la fase d'entrenament.

El problema és doble: en primer lloc, dissenyem sistemes que intenten aconseguir resultats ràpidament i amb un ús òptim dels recursos. Fins i tot allà on, com amb GPT-3, els recursos poden ser considerablement més grans que els que el projecte de recerca PNL mitjà és capaç de reunir, aquesta cultura d'optimització basada en resultats encara impregna la metodologia, perquè ha arribat a dominar la convenció acadèmica.

En conseqüència, les nostres arquitectures de formació recompensen models que convergeixen ràpidament i produeixen respostes aparentment adequades a les preguntes, fins i tot si posteriorment el model de PNL és incapaç de justificar la seva resposta o de demostrar com va arribar a les seves conclusions.

Una disposició primerenca a fer trampes

Això passa perquè el model aprèn "respostes de drecera" molt abans en la formació que no aprèn tipus d'adquisició de coneixement més complicats. Atès que l'augment de la precisió sovint es recompensa de manera bastant indiscriminada durant l'entrenament, el model prioritza qualsevol enfocament que li permeti respondre una pregunta "de manera àgil" i sense una visió real.

Com que l'aprenentatge de drecera representarà inevitablement el 1 èxits durant l'entrenament, la sessió tendirà naturalment a allunyar-se de la tasca més difícil d'aconseguir una perspectiva epistemològica útil i completa, que pot contenir capes d'atribució i lògica més profundes i perspicaces.

Feeding AI Les respostes "fàcils".

El segon problema és que tot i que les iniciatives de recerca recents ho han fet estudiat La tendència de l'IA a "enganyar" d'aquesta manera i ha identificat el fenomen de les "dreceres", fins ara no s'ha fet cap esforç per classificar el material que permet "dreceres" en un conjunt de dades contribuint, que seria el primer pas lògic per abordar el que pot resultar ser un defecte arquitectònic fonamental en els sistemes de comprensió de lectura automàtica (MRC).

El nou paper, una col·laboració entre l'Institut de Tecnologia Informàtica de Wangxuan i el Laboratori Clau de Lingüística Computacional del MOE de la Universitat de Pequín, prova diversos models lingüístics amb un conjunt de dades recentment anotat que inclou classificacions per a solucions "fàcils" i "difíciles" a una possible pregunta.

Font: https://arxiv.org/pdf/2106.01024.pdf

Font: https://arxiv.org/pdf/2106.01024.pdf

El conjunt de dades utilitza la parafraseja com a criteri per a les respostes més complicades i profundes, ja que és necessària una comprensió semàntica per reformular el coneixement obtingut. Per contra, les respostes "drecera" poden utilitzar fitxes com ara dates i altres paraules clau encapsulades, per produir una resposta que sigui precisa, però sense cap context ni raonament.

El component de drecera de les anotacions inclou la concordança de paraules de pregunta (QWM) i la concordança simple (SpM). Per a QWM, el model utilitza entitats extretes de les dades de text subministrades i el context d'eliminació; per a SpM, el model identifica la superposició entre les frases de resposta i les preguntes, ambdues que es proporcionen a les dades de formació.

Dades de drecera gairebé "virals" influeixen en un conjunt de dades

Els investigadors afirmen que els conjunts de dades tendeixen a contenir una gran proporció de preguntes de drecera, cosa que fa que els models entrenats es basen en trucs de drecera.

Els dos models utilitzats en els experiments van ser BiDAF i Google BERT-base. Els investigadors observen que fins i tot quan s'entrenen en variacions del conjunt de dades amb una proporció més alta de preguntes "difícils", ambdós models encara funcionen millor en preguntes de drecera que en preguntes parafrasejades més difícils, malgrat el petit nombre d'exemples dels conjunts de dades.

Això presenta "dades de drecera" gairebé en el context d'un virus: cal que n'hi hagi molt poc present en un conjunt de dades per tal que s'adoptin i es prioritzin en la formació, segons els estàndards i pràctiques convencionals en PNL.

Demostrant la trampa

Un mètode que utilitza la investigació per demostrar com la fragilitat d'una resposta de drecera és substituir una paraula d'entitat "fàcil" per una paraula anòmala. Quan s'ha utilitzat un mètode de drecera, no es pot proporcionar la lògica de la resposta "enganyada"; però quan la resposta s'ha proporcionat a partir d'un context més profund i d'una avaluació semàntica d'una gamma més àmplia de textos contribuents, és possible que el sistema deconstrueixi l'error i reconstrueixi una resposta correcta.

Substituint "Beyoncé" (una persona) per "Amèrica" ​​(una ubicació), revela si el model té alguna lògica de fons per a la seva resposta.

Substituint "Beyoncé" (una persona) per "Amèrica" ​​(una ubicació), revela si el model té alguna lògica de fons per a la seva resposta.

Dreceres a causa d'un imperatiu econòmic

Pel que fa a algunes de les raons arquitectòniques per les quals es prioritzen tant les dreceres en els fluxos de treball de formació en PNL, els autors comenten "Els models MRC poden aprendre els trucs de drecera, com ara QWM, amb menys recursos computacionals que els reptes de comprensió, com identificar parafrasejar"..

Això, doncs, podria ser un resultat no desitjat de l'optimització estàndard i les filosofies de preservació de recursos en els enfocaments de la comprensió de la lectura automàtica i la pressió per obtenir resultats amb recursos limitats en períodes de temps ajustats.

Els investigadors també assenyalen:

"[Atès que] el truc de drecera es pot utilitzar per respondre correctament la majoria de les preguntes de formació, és possible que les qüestions limitades sense resoldre no motiven els models a explorar solucions sofisticades que requereixen habilitats desafiants".

Si els resultats de l'article es confirmen posteriorment, sembla que l'ampli i creixent camp del preprocessament de dades pot necessitar considerar els "pessebres ocults" a les dades com un problema que cal abordar a llarg termini, o bé revisar les arquitectures de PNL. per prioritzar rutines més difícils per a la ingestió de dades.