Seguici sui social

DeepMind: l'intelligenza artificiale può ereditare i limiti cognitivi umani, potrebbe trarre vantaggio dall'"istruzione formale"

Intelligenza Artificiale

DeepMind: l'intelligenza artificiale può ereditare i limiti cognitivi umani, potrebbe trarre vantaggio dall'"istruzione formale"

mm

Una nuova collaborazione tra DeepMind e l’Università di Stanford suggerisce che l’intelligenza artificiale spesso non è migliore delle persone nel ragionamento astratto, perché i modelli di apprendimento automatico ottengono le loro architetture di ragionamento da esempi umani del mondo reale che sono radicati nel contesto pratico (che l’intelligenza artificiale non può sperimentare). ), ma sono anche ostacolati dalle nostre carenze cognitive.

Una volta dimostrato, questo potrebbe rappresentare un ostacolo al pensiero "audace" e alla qualità dell'origine intellettuale che molti si aspettano dai sistemi di apprendimento automatico, e illustra la misura in cui l'intelligenza artificiale riflette l'esperienza umana ed è incline a riflettere (e ragionare) entro i confini umani che l'hanno informata.

I ricercatori suggeriscono che i modelli di intelligenza artificiale potrebbero trarre vantaggio da un pre-addestramento al ragionamento astratto, paragonandolo a una "educazione formale", prima di essere impiegati in compiti del mondo reale.

Il documento afferma:

«Gli esseri umani sono ragionatori imperfetti. Ragioniamo in modo più efficace su entità e situazioni che sono coerenti con la nostra comprensione del mondo.

"I nostri esperimenti dimostrano che i modelli linguistici rispecchiano questi schemi di comportamento. I modelli linguistici funzionano in modo imperfetto nei compiti di ragionamento logico, ma questa performance dipende dal contenuto e dal contesto. In particolare, tali modelli spesso falliscono in situazioni in cui falliscono anche gli esseri umani, ovvero quando gli stimoli diventano troppo astratti o sono in conflitto con la precedente comprensione del mondo."

Per testare la misura in cui i modelli di elaborazione del linguaggio naturale (NLP) su vasta scala a livello GPT potrebbero essere influenzati da tali limitazioni, i ricercatori hanno eseguito una serie di tre test su un modello adatto, concludendo*:

"Troviamo che modelli linguistici di grandi dimensioni all'avanguardia (con 7 o 70 miliardi parametri) riflettono molti degli stessi modelli osservati negli esseri umani durante questi compiti: come gli umani, i modelli ragionano in modo più efficace su situazioni credibili rispetto a quelle irrealistiche o astratte.

"I nostri risultati hanno implicazioni per la comprensione sia di questi effetti cognitivi sia dei fattori che contribuiscono alle prestazioni del modello linguistico".

Il documento suggerisce che la creazione di capacità di ragionamento in un'intelligenza artificiale senza darle il vantaggio dell'esperienza corporea del mondo reale che mette tali abilità nel contesto, potrebbe limitare il potenziale di tali sistemi, osservando che "esperienza fondata...presumibilmente sostiene alcune credenze e ragionamenti umani".

Gli autori ipotizzano che l'intelligenza artificiale percepisca il linguaggio in modo passivo, mentre gli esseri umani lo percepiscono come una componente attiva e centrale della comunicazione sociale, e che questo tipo di partecipazione attiva (che implica i sistemi sociali convenzionali di punizione e ricompensa) potrebbe essere la "chiave" per comprendere il significato allo stesso modo degli esseri umani.

I ricercatori osservano:

'Alcune differenze tra i modelli linguistici e gli esseri umani potrebbero quindi derivare dalle differenze tra l'esperienza ricca, concreta e interattiva degli esseri umani e l'esperienza impoverita dei modelli.'

Suggeriscono che una soluzione potrebbe essere un periodo di "pre-addestramento", molto simile a quello che gli esseri umani sperimentano nel sistema scolastico e universitario, prima dell'addestramento sui dati fondamentali che alla fine costruiranno un modello linguistico utile e versatile.

Questo periodo di "istruzione formale" (come lo paragonano i ricercatori) sarebbe diverso dal pre-addestramento dell'apprendimento automatico convenzionale (che è un metodo per ridurre i tempi di addestramento riutilizzando modelli semi-addestrati o importando pesi da modelli completamente addestrati, come "booster" per avviare il processo di addestramento).

Piuttosto, rappresenterebbe un periodo di apprendimento continuo, progettato per sviluppare le capacità di ragionamento logico dell'IA in modo puramente astratto e per sviluppare facoltà critiche più o meno nello stesso modo in cui uno studente universitario sarà incoraggiato a fare nel corso della sua laurea.

"Diversi risultati", affermano gli autori, "indicano che questa ipotesi potrebbe non essere così inverosimile come sembra".

. carta è intitolato I modelli linguistici mostrano effetti di contenuto simili a quelli umani sul ragionamento, e proviene da sei ricercatori di DeepMind e uno affiliato sia a DeepMind che alla Stanford University.

Test

Gli esseri umani apprendono concetti astratti attraverso esempi pratici, più o meno con lo stesso metodo dell'"importanza implicita" che spesso aiuta chi studia una lingua a memorizzare vocaboli e regole linguistiche, tramite tecniche mnemoniche. L'esempio più semplice è l'insegnamento di principi astrusi in fisica. evocando 'scenari di viaggio' per treni e automobili.

Per testare le capacità di ragionamento astratto di un modello linguistico iperscalare, i ricercatori hanno ideato una serie di tre test linguistici/semantici che possono risultare impegnativi anche per gli esseri umani. I test sono stati applicati in modalità "zero shot" (senza esempi risolti) e "five shot" (con cinque esempi risolti precedenti).

Il primo compito riguarda l'inferenza del linguaggio naturale (NLI), in cui il soggetto (una persona o, in questo caso, un modo linguistico) riceve due frasi, una "premessa" e un'"ipotesi" che sembra essere dedotta dalla premessa. Ad esempio X è minore di Y, Ipotesi: Y è maggiore di X (incluso).

Per l'attività di inferenza del linguaggio naturale, i ricercatori hanno valutato i modelli linguistici cincilla (un modello da 70 miliardi di parametri) e 7B (una versione da 7 miliardi di parametri dello stesso modello), scoprendo che per gli esempi consistenti (cioè quelli che non erano sciocchezze), solo il modello Chinchilla più grande otteneva risultati superiori al puro caso; e notano:

"Ciò indica una forte distorsione del contenuto: i modelli preferiscono completare la frase in un modo coerente con le aspettative precedenti piuttosto che in un modo coerente con le regole della logica".

La prestazione di 70 miliardi di parametri di Chinchilla nell'attività NLI. Sia questo modello che la sua versione più sottile 7B hanno mostrato un "pregiudizio di credenza sostanziale", secondo i ricercatori.

Le prestazioni di Chinchilla con 70 miliardi di parametri nel compito NLI. Sia questo modello che la sua versione più snella 7B hanno mostrato un "sostanziale bias di credenza", secondo i ricercatori. Fonte: https://arxiv.org/pdf/2207.07051.pdf

Sillogismi

Il secondo compito presenta una sfida più complessa, sillogismi - argomenti in cui due affermazioni vere implicano apparentemente una terza affermazione (che può essere o meno una conclusione logica dedotta dalle due affermazioni precedenti):

Dal materiale di prova del documento, vari sillogismi "realistici" e paradossali o privi di senso.

Qui, gli esseri umani sono immensamente fallibili, e un costrutto progettato per esemplificare un principio logico diventa quasi immediatamente, (e forse permanentemente) invischiato e confuso dalla "credenza" umana su quale sia la risposta giusta. dovrebbe essere.

Gli autori notano che a studiare da 1983 hanno dimostrato che i partecipanti erano influenzati dal fatto che la conclusione di un sillogismo fosse in accordo con le loro convinzioni, osservando:

"I partecipanti erano molto più propensi (nel 90% dei casi) a dire erroneamente che un sillogismo non valido era valido se la conclusione era credibile, e quindi si basavano principalmente sulla convinzione piuttosto che sul ragionamento astratto."

Testando Chinchilla contro una serie di diversi sillogismi, molti dei quali si concludevano con false implicazioni, i ricercatori hanno scoperto che "Il pregiudizio di convinzione guida quasi tutte le decisioni a zero possibilità"Se il modello linguistico trova una conclusione incoerente con la realtà, il modello, affermano gli autori, è "fortemente orientato" a dichiarare non valido l'argomento finale, anche quando l'argomento finale è una conseguenza logica delle affermazioni precedenti.

Risultati zero shot per Chinchilla (zero shot è il modo in cui la maggior parte dei soggetti del test riceverebbe queste sfide, dopo una spiegazione della regola guida), che illustra il vasto divario tra la capacità computazionale di un computer e la capacità di un modello di PNL di navigare in questo tipo di logica nascente sfida.

Risultati pari a zero per Chinchilla (pari a zero è il modo in cui la maggior parte dei soggetti del test riceverebbe queste sfide, dopo una spiegazione della regola guida), che illustrano l'enorme divario tra la capacità di calcolo di un computer e la capacità di un modello NLP di affrontare questo tipo di sfida di "logica nascente".

Il compito di selezione di Wason

Per la terza prova, quella ancora più impegnativa Compito di selezione di Wason problema logico è stato riformulato in una serie di iterazioni variabili per il modello linguistico da risolvere.

Il compito Wason, ideato in 1968, è apparentemente molto semplice: ai partecipanti vengono mostrate quattro carte e viene detta una regola arbitraria come "Se una carta ha una 'D' su un lato, allora ha un '3' sull'altro lato". Le quattro facce delle carte visibili mostrano 'D', 'F', '3' e '7'.

Ai soggetti viene quindi chiesto quali carte devono girare per verificare se la regola è vera o falsa.

La soluzione corretta in questo esempio è girare le carte 'D' e '7'. Nei primi test, si è scoperto che mentre la maggior parte dei soggetti (umani) avrebbe scelto correttamente 'D', era più probabile che scegliessero '3' piuttosto che '7', confondendo il contropositivo della regola ('non 3 implica non D') con il conversare ('3' implica 'D', il che non è logicamente implicito).

Gli autori notano che la possibilità che la credenza precedente interceda nel processo logico nei soggetti umani, e notano inoltre che anche i matematici accademici e i matematici universitari hanno ottenuto generalmente meno del 50% in questo compito.

Tuttavia, quando lo schema di un'attività di Wason riflette in qualche modo l'esperienza pratica umana, le prestazioni tradizionalmente aumentano di conseguenza.

Gli autori osservano, riferendosi a precedenti esperimenti:

"[Se] le carte mostrano età e bevande, e la regola è "se bevono alcolici, allora devono avere 21 anni o più" e vengono mostrate carte con "birra", "bibita", "25", "16", la stragrande maggioranza dei partecipanti sceglie correttamente di controllare le carte che mostrano "birra" e "16"."

Per testare le prestazioni del modello linguistico nei compiti di Wason, i ricercatori hanno creato diverse regole realistiche e arbitrarie, alcune delle quali comprendevano parole "senza senso", per verificare se l'IA fosse in grado di penetrare il contesto del contenuto per indovinare quali "carte virtuali" girare.

Alcuni dei tanti enigmi Wason Selection Task presentati nei test.

Alcuni dei tanti enigmi Wason Selection Task presentati nei test.

Nei test di Wason, il modello ha ottenuto risultati comparabili a quelli degli esseri umani in compiti "realistici" (non assurdi).

Risultati del compito di selezione Wason a colpo zero per Chinchilla, con il modello che si comporta ben al di sopra delle possibilità, almeno per le regole "realistiche".

Risultati del compito di selezione Wason a zero-shot per Chinchilla, con il modello che ha ottenuto risultati ben superiori alla probabilità, almeno per le regole "realistiche".

Il giornale commenta:

"Ciò riflette i risultati della letteratura scientifica: gli esseri umani sono molto più precisi nel rispondere al compito di Wason quando questo viene formulato in termini di situazioni realistiche piuttosto che in base a regole arbitrarie su attributi astratti".

Educazione formale

I risultati dell'articolo inquadrano il potenziale di ragionamento dei sistemi NLP iperscalari nel contesto dei nostri limiti, che apparentemente trasferiamo ai modelli attraverso i set di dati del mondo reale accumulati che li alimentano. Poiché la maggior parte di noi non è un genio, non lo sono nemmeno i modelli i cui parametri sono influenzati dai nostri.

Inoltre, conclude il nuovo lavoro, abbiamo almeno il vantaggio di un periodo prolungato di educazione formativa e le ulteriori motivazioni sociali, finanziarie e persino sessuali che costituiscono l'imperativo umano. Tutto ciò che i modelli di PNL possono ottenere sono le azioni risultanti di questi fattori ambientali, e sembrano essere conformi al generale piuttosto che all'eccezionale umano.

Gli autori affermano:

"I nostri risultati mostrano che gli effetti di contenuto possono emergere semplicemente addestrando un grande trasformatore a imitare il linguaggio prodotto dalla cultura umana, senza incorporare questi meccanismi interni specifici dell'uomo."

"In altre parole, sia i modelli linguistici che gli esseri umani giungono a questi pregiudizi di contenuto, ma a partire da architetture, esperienze e obiettivi formativi apparentemente molto diversi".

Essi suggeriscono quindi una sorta di "addestramento induttivo" al ragionamento puro, che ha stato mostrato per migliorare le prestazioni del modello per la matematica e il ragionamento generale. Notano inoltre che anche i modelli linguistici sono stati addestrati o messi a punto per seguire meglio le istruzioni a livello astratto o generalizzato, e a verificare, correggere o debias la propria produzione.

 

* La mia conversione di citazioni in linea in collegamenti ipertestuali.

Pubblicato per la prima volta l'15 luglio 2022.