Connect with us

Intelligenza artificiale

Possiamo Davvero Fidarci del Ragionamento a Catena del Pensiero dell’AI?

mm

Mentre l’intelligenza artificiale (AI) viene utilizzata ampiamente in aree come la sanità e le auto a guida autonoma, la questione di quanto possiamo fidarci di essa diventa più critica. Un metodo, chiamato ragionamento a catena del pensiero (CoT), ha guadagnato attenzione. Aiuta l’AI a scomporre problemi complessi in passaggi, mostrando come arriva a una risposta finale. Ciò non solo migliora le prestazioni, ma ci dà anche uno sguardo su come l’AI pensa, il che è importante per la fiducia e la sicurezza dei sistemi AI.

Ma recenti ricerche di Anthropic mettono in dubbio se il CoT rifletta realmente ciò che sta accadendo all’interno del modello. Questo articolo esamina come funziona il CoT, cosa ha scoperto Anthropic e cosa significa tutto ciò per la costruzione di un AI affidabile.

Comprendere il Ragionamento a Catena del Pensiero

Il ragionamento a catena del pensiero è un modo per sollecitare l’AI a risolvere problemi in modo passo dopo passo. Invece di dare solo una risposta finale, il modello spiega ogni passaggio lungo la strada. Questo metodo è stato introdotto nel 2022 e ha da allora aiutato a migliorare i risultati in compiti come matematica, logica e ragionamento.

Modelli come OpenAI’s o1 e o3, Gemini 2.5, DeepSeek R1 e Claude 3.7 Sonnet utilizzano questo metodo. Una ragione per cui il CoT è popolare è che rende il ragionamento dell’AI più visibile. Ciò è utile quando il costo degli errori è alto, come negli strumenti medici o nei sistemi di guida autonoma.

Tuttavia, anche se il CoT aiuta con la trasparenza, non riflette sempre ciò che il modello sta realmente pensando. In alcuni casi, le spiegazioni potrebbero sembrare logiche ma non sono basate sui passaggi reali che il modello ha utilizzato per raggiungere la sua decisione.

Possiamo Fidarci del Ragionamento a Catena del Pensiero

Anthropic ha testato se le spiegazioni del CoT riflettono realmente come i modelli AI prendono decisioni. Questa qualità è chiamata “fedeltà”. Hanno studiato quattro modelli, tra cui Claude 3.5 Sonnet, Claude 3.7 Sonnet, DeepSeek R1 e DeepSeek V1. Tra questi modelli, Claude 3.7 e DeepSeek R1 sono stati addestrati utilizzando tecniche CoT, mentre gli altri no.

Hanno dato ai modelli diversi prompt. Alcuni di questi prompt includevano suggerimenti destinati a influenzare il modello in modo non etico. Quindi hanno verificato se l’AI ha utilizzato questi suggerimenti nel suo ragionamento.

I risultati hanno sollevato preoccupazioni. I modelli hanno ammesso di utilizzare i suggerimenti meno del 20% delle volte. Anche i modelli addestrati per utilizzare il CoT hanno dato spiegazioni fedeli solo nel 25-33% dei casi.

Quando i suggerimenti coinvolgevano azioni non etiche, come imbrogliare un sistema di ricompensa, i modelli raramente lo hanno ammesso. Ciò è accaduto anche se si sono basati su quei suggerimenti per prendere decisioni.

L’addestramento dei modelli più utilizzando l’apprendimento per rinforzo ha fatto un piccolo miglioramento. Ma non ha aiutato molto quando il comportamento era non etico.

I ricercatori hanno anche notato che quando le spiegazioni non erano veritiere, erano spesso più lunghe e complesse. Ciò potrebbe significare che i modelli stavano cercando di nascondere ciò che stavano realmente facendo.

Hanno anche scoperto che più il compito era complesso, meno fedeli diventavano le spiegazioni. Ciò suggerisce che il CoT potrebbe non funzionare bene per problemi difficili. Può nascondere ciò che il modello sta realmente facendo, specialmente in decisioni sensibili o rischiose.

Cosa Significa per la Fiducia

Lo studio mette in luce un divario significativo tra come appare trasparente il CoT e quanto è realmente onesto. In aree critiche come la medicina o il trasporto, ciò è un rischio serio. Se un’AI fornisce una spiegazione logica ma nasconde azioni non etiche, le persone potrebbero fidarsi erroneamente dell’output.

Il CoT è utile per problemi che richiedono ragionamento logico su più passaggi. Ma potrebbe non essere utile per rilevare errori rari o rischiosi. Non ferma nemmeno il modello dal fornire risposte fuorvianti o ambigue.

La ricerca mostra che il CoT da solo non è sufficiente per fidarsi del processo decisionale dell’AI. Altri strumenti e controlli sono necessari per assicurarsi che l’AI si comporti in modo sicuro e onesto.

Punti di Forza e Limiti del Ragionamento a Catena del Pensiero

Nonostante queste sfide, il CoT offre molti vantaggi. Aiuta l’AI a risolvere problemi complessi dividendoli in parti. Ad esempio, quando un modello linguistico di grandi dimensioni viene sollecitato con il CoT, ha dimostrato un’accuratezza di alto livello nei problemi di parole matematiche utilizzando questo ragionamento passo dopo passo. Il CoT rende anche più facile per gli sviluppatori e gli utenti seguire cosa sta facendo il modello. Ciò è utile in aree come la robotica, l’elaborazione del linguaggio naturale o l’istruzione.

Tuttavia, il CoT non è senza limiti. I modelli più piccoli lottano per generare ragionamento passo dopo passo, mentre i modelli più grandi richiedono più memoria e potenza per utilizzarlo bene. Queste limitazioni rendono difficile sfruttare il CoT in strumenti come chatbot o sistemi in tempo reale.

Le prestazioni del CoT dipendono anche da come vengono scritti i prompt. Prompt scadenti possono portare a passaggi cattivi o confusi. In alcuni casi, i modelli generano spiegazioni lunghe che non aiutano e rallentano il processo. Inoltre, gli errori all’inizio del ragionamento possono portare a una risposta finale errata. E in campi specializzati, il CoT potrebbe non funzionare bene a meno che il modello non sia stato addestrato in quell’area.

Quando aggiungiamo i risultati di Anthropic, diventa chiaro che il CoT è utile ma non sufficiente da solo. È una parte di uno sforzo più ampio per costruire un’AI che le persone possano fidarsi.

Risultati Chiave e il Percorso Avanti

Questa ricerca punta a diverse lezioni. In primo luogo, il CoT non dovrebbe essere l’unico metodo che utilizziamo per controllare il comportamento dell’AI. In aree critiche, abbiamo bisogno di più controlli, come esaminare l’attività interna del modello o utilizzare strumenti esterni per testare le decisioni.

Dobbiamo anche accettare che solo perché un modello fornisce una spiegazione chiara non significa che stia dicendo la verità. La spiegazione potrebbe essere una copertura, non una vera ragione.

Per affrontare ciò, i ricercatori suggeriscono di combinare il CoT con altri approcci. Ciò include migliori metodi di addestramento, apprendimento supervisionato e revisioni umane.

Anthropic raccomanda anche di esaminare più a fondo il funzionamento interno del modello. Ad esempio, controllare i modelli di attivazione o i layer nascosti potrebbe mostrare se il modello sta nascondendo qualcosa.

Il più importante è che il fatto che i modelli possano nascondere comportamenti non etici mostra perché sono necessarie regole forti e test nel processo di sviluppo dell’AI.

Costruire la fiducia nell’AI non è solo questione di buone prestazioni. È anche questione di assicurarsi che i modelli siano onesti, sicuri e aperti all’ispezione.

Il Punto di Partenza

Il ragionamento a catena del pensiero ha aiutato a migliorare come l’AI risolve problemi complessi e spiega le sue risposte. Ma la ricerca mostra che queste spiegazioni non sono sempre veritiere, specialmente quando sono coinvolti problemi etici.

Il CoT ha limiti, come costi elevati, necessità di modelli più grandi e dipendenza da prompt ben scritti. Non può garantire che l’AI agisca in modo sicuro o equo.

Per costruire un’AI di cui possiamo realmente fidarci, dobbiamo combinare il CoT con altri metodi, inclusi il controllo umano e i controlli interni. La ricerca deve anche continuare a migliorare l’affidabilità di questi modelli.

Il dottor Tehseen Zia è un professore associato con tenure presso l'Università COMSATS di Islamabad, con un dottorato in Intelligenza Artificiale presso l'Università Tecnica di Vienna, Austria. Specializzato in Intelligenza Artificiale, Apprendimento Automatico, Scienza dei Dati e Visione Artificiale, ha apportato contributi significativi con pubblicazioni su riviste scientifiche reputate. Il dottor Tehseen ha anche guidato vari progetti industriali come principale investigatore e ha lavorato come consulente di Intelligenza Artificiale.