Intelligenza Artificiale

La lotta per impedire all'IA di imbrogliare nei test

aggiornato on Dicembre 9, 2022

Nuovi risultati di una ricerca condotta da un'università cinese offrono uno spaccato del motivo per cui i modelli di elaborazione generativa del linguaggio naturale come GPT-3 tendono a "imbrogliare" quando viene posta una domanda difficile, producendo risposte che possono essere tecnicamente corrette, ma senza alcuna reale comprensione di esso. perché la risposta è corretta; e perché dimostrano poca o nessuna capacità di spiegare la logica dietro le loro risposte "facili". I ricercatori propongono anche alcuni nuovi metodi per rendere i sistemi "più difficili da studiare" durante la fase di addestramento.

Il problema è duplice: in primo luogo, progettiamo sistemi che cercano di ottenere risultati rapidamente e con un uso ottimale delle risorse. Anche laddove, come con GPT-3, le risorse possono essere considerevolmente superiori a quelle che il progetto di ricerca NLP medio è in grado di raccogliere, questa cultura dell'ottimizzazione guidata dai risultati pervade ancora la metodologia, perché è arrivata a dominare le convenzioni accademiche.

Di conseguenza, le nostre architetture formative premiano i modelli che convergono rapidamente e producono risposte apparentemente opportune alle domande, anche se il modello di PNL non è successivamente in grado di giustificare la sua risposta, o di dimostrare come è arrivato alle sue conclusioni.

Una disposizione precoce a imbrogliare

Ciò si verifica perché il modello apprende le "risposte di scelta rapida" molto prima durante l'addestramento rispetto a tipi più complicati di acquisizione della conoscenza. Poiché una maggiore precisione viene spesso premiata in modo del tutto indiscriminato durante l'addestramento, il modello dà quindi la priorità a qualsiasi approccio che gli consenta di rispondere a una domanda "con disinvoltura" e senza una reale comprensione.

Poiché l'apprendimento delle scorciatoie rappresenterà inevitabilmente il prima di tutto successi durante la formazione, la sessione si allontanerà naturalmente dal compito più difficile di acquisire una prospettiva epistemologica utile e più completa, che può contenere strati di attribuzione e logica più profondi e penetranti.

Feeding AI Le risposte "facili".

Il secondo problema è che anche se le recenti iniziative di ricerca hanno studiato La tendenza dell'IA a "imbrogliare" in questo modo, e hanno identificato il fenomeno delle "scorciatoie", fino ad ora non c'è stato alcuno sforzo per classificare il materiale che abilita le "scorciatoie" in un set di dati che contribuisce, il che sarebbe il primo passo logico per affrontare ciò che potrebbe rivelarsi un difetto architettonico fondamentale nei sistemi di comprensione della lettura automatica (MRC).

Il nuovo carta, una collaborazione tra il Wangxuan Institute of Computer Technology e il MOE Key Laboratory of Computational Linguistics dell'Università di Pechino, mette alla prova vari modelli linguistici rispetto a un set di dati appena annotato che include classificazioni per soluzioni "facili" e "difficili" a una possibile domanda.

Fonte: https://arxiv.org/pdf/2106.01024.pdf

Il dataset utilizza la parafrasi come criterio per le risposte più complesse e profonde, poiché è necessaria una comprensione semantica per riformulare le conoscenze acquisite. Al contrario, le risposte "scorciatoia" possono utilizzare token come date e altre parole chiave incapsulanti per produrre una risposta effettivamente accurata, ma senza alcun contesto o ragionamento.

Il componente scorciatoia delle annotazioni presenta la corrispondenza delle parole interrogative (QWM) e la corrispondenza semplice (SpM). Per QWM, il modello utilizza entità estratte dai dati di testo forniti e dal contesto degli scarichi; per SpM, il modello identifica la sovrapposizione tra frasi di risposta e domande, entrambe fornite nei dati di addestramento.

Dati di collegamento quasi "virali" nell'influenza in un set di dati

I ricercatori sostengono che i set di dati tendono a contenere un'alta percentuale di domande di scelta rapida, che fanno sì che i modelli addestrati si basino su trucchi di scelta rapida.

I due modelli utilizzati negli esperimenti erano BiDAF e Google BERTA-base. I ricercatori osservano che anche se addestrati su variazioni di set di dati con una percentuale maggiore di domande "difficili", entrambi i modelli hanno comunque prestazioni migliori su domande rapide rispetto a domande parafrasate più difficili, nonostante il numero limitato di esempi nei set di dati.

Ciò presenta "dati di scelta rapida" quasi nel contesto di un virus - che deve essercene molto poco presente in un set di dati affinché possa essere adottato e prioritario nella formazione, secondo gli standard e le pratiche convenzionali della PNL.

Dimostrando il trucco

Un metodo utilizzato dalla ricerca per dimostrare come la fragilità di una risposta rapida sia quella di sostituire una parola di entità "facile" con una parola anomala. Laddove è stato utilizzato un metodo di scelta rapida, non è possibile fornire la logica della risposta "imbrogliata"; ma laddove la risposta è stata fornita da un contesto più approfondito e da una valutazione semantica di una gamma più ampia di contributi testuali, è possibile per il sistema decostruire l'errore e ricostruire una risposta corretta.

La sostituzione di "Beyoncé" (una persona) con "America" (un luogo) rivela se il modello ha una logica di fondo per la sua risposta.

Scorciatoie dovute a un imperativo economico

Per quanto riguarda alcune delle ragioni architettoniche per cui le scorciatoie sono così prioritarie nei flussi di lavoro di formazione PNL, commentano gli autori "I modelli MRC possono apprendere i trucchi di scelta rapida, come QWM, con meno risorse computazionali rispetto alle sfide di comprensione, come l'identificazione della parafrasi".

Questo, quindi, potrebbe essere un risultato non intenzionale dell'ottimizzazione standard e delle filosofie di conservazione delle risorse negli approcci alla comprensione della lettura automatica e della pressione per ottenere risultati con risorse limitate in tempi ristretti.

I ricercatori notano anche:

"[Poiché] il trucco della scorciatoia può essere utilizzato per rispondere correttamente alla maggior parte delle domande di addestramento, le limitate domande irrisolte rimaste potrebbero non motivare i modelli a esplorare soluzioni sofisticate che richiedono competenze impegnative."

Se i risultati del documento saranno successivamente confermati, sembrerebbe che il campo vasto e in continua crescita della preelaborazione dei dati potrebbe dover considerare le "culle nascoste" nei dati come un problema da affrontare a lungo termine, oppure rivedere le architetture della PNL per dare la priorità alle routine più impegnative per l'inserimento dei dati.