Intelligenza artificiale

Ricercatori di Google scoprono il problema di underspecification che ostacola molti modelli di intelligenza artificiale

Published November 20, 2020

Updated April 5, 2026

Daniel Nelson

Recentemente, un team di ricercatori di Google ha identificato una causa comune dei fallimenti dei modelli di intelligenza artificiale, puntando all’underspecification come una delle principali ragioni per cui i modelli di apprendimento automatico spesso si comportano in modo molto diverso nel mondo reale rispetto a quanto fanno durante il test e lo sviluppo.

I modelli di apprendimento automatico spesso falliscono quando affrontano compiti in un ambiente del mondo reale, anche se i modelli si comportano in modo ottimale in laboratorio. Ci sono molte ragioni per cui si verifica la discordanza tra le prestazioni di addestramento/sviluppo e quelle del mondo reale. Una delle ragioni più comuni per cui i modelli di intelligenza artificiale falliscono durante i compiti del mondo reale è un concetto noto come data shift. Il data shift si riferisce a una differenza fondamentale tra il tipo di dati utilizzato per sviluppare un modello di apprendimento automatico e i dati alimentati nel modello durante l’applicazione. Ad esempio, i modelli di visione computerizzata addestrati su dati di immagini di alta qualità avranno difficoltà a eseguire quando alimentati con dati catturati da fotocamere di bassa qualità presenti nell’ambiente quotidiano del modello.

Secondo MIT Technology Review, un team di 40 diversi ricercatori di Google ha identificato un’altra ragione per cui le prestazioni di un modello di apprendimento automatico possono variare così drasticamente. Il problema è l'”underspecification”, un concetto statistico che descrive problemi in cui i fenomeni osservati hanno molte possibili cause, non tutte delle quali sono contemplate dal modello. Secondo il leader dello studio Alex D’Amour, il problema si verifica in molti modelli di apprendimento automatico, affermando che il fenomeno “si verifica ovunque”.

Il metodo tipico di addestramento di un modello di apprendimento automatico consiste nell’alimentare il modello con una grande quantità di dati che possono essere analizzati e dai quali estrarre modelli rilevanti. Successivamente, il modello viene alimentato con esempi che non ha visto e gli viene chiesto di prevedere la natura di quegli esempi in base alle caratteristiche che ha appreso. Una volta che il modello ha raggiunto un certo livello di precisione, l’addestramento è generalmente considerato completo.

Secondo il team di ricerca di Google, è necessario fare di più per garantire che i modelli possano veramente generalizzare ai dati non di addestramento. Il metodo classico di addestramento dei modelli di apprendimento automatico produrrà vari modelli che possono superare tutti i test, ma questi modelli differiranno in piccoli modi che sembrano insignificanti ma non lo sono. Diversi nodi nei modelli avranno valori casuali diversi assegnati, o i dati di addestramento potrebbero essere selezionati o rappresentati in modi diversi. Queste variazioni sono piccole e spesso arbitrarie, e se non hanno un grande impatto su come i modelli si comportano durante l’addestramento, sono facili da trascurare. Tuttavia, quando l’impatto di tutte queste piccole modifiche si accumula, possono portare a variazioni significative nelle prestazioni del mondo reale.

Questa underspecification è problematica perché significa che, anche se il processo di addestramento è in grado di produrre buoni modelli, può anche produrre un modello scadente e la differenza non verrà scoperta fino a quando il modello non esce dalla produzione e non entra in uso.

Al fine di valutare l’impatto dell’underspecification, il team di ricerca ha esaminato una serie di diversi modelli. Ogni modello è stato addestrato utilizzando lo stesso processo di addestramento, e poi i modelli sono stati sottoposti a una serie di test per evidenziare le differenze nelle prestazioni. In un caso, 50 diverse versioni di un sistema di riconoscimento di immagini sono state addestrate sul set di dati ImageNet. I modelli erano tutti uguali, tranne che per i valori della rete neurale che erano stati assegnati casualmente all’inizio dell’addestramento. I test di stress utilizzati per determinare le differenze nei modelli sono stati condotti utilizzando ImageNet-C, una variante del set di dati originale costituita da immagini modificate attraverso regolazioni di contrasto o luminosità. I modelli sono stati testati anche su ObjectNet, una serie di immagini che rappresentano oggetti quotidiani in orientamenti e contesti insoliti. Anche se tutti e 50 i modelli avevano prestazioni simili sul set di dati di addestramento, le prestazioni sono variate ampiamente quando i modelli sono stati sottoposti ai test di stress.

Il team di ricerca ha trovato risultati simili quando ha addestrato e testato due diversi sistemi NLP, nonché quando ha testato vari altri modelli di visione computerizzata. In ogni caso, i modelli sono divergenti in modo selvaggio l’uno dall’altro, anche se il processo di addestramento per tutti i modelli era lo stesso.

Secondo D’Amour, i ricercatori e gli ingegneri di apprendimento automatico devono fare molte più prove di stress prima di rilasciare i modelli nel mondo. Ciò può essere difficile da fare, poiché le prove di stress devono essere personalizzate per compiti specifici utilizzando dati del mondo reale, dati che possono essere difficili da ottenere per determinati compiti e contesti. Una possibile soluzione al problema di underspecification è produrre molti modelli contemporaneamente e poi testarli su una serie di compiti del mondo reale, selezionando il modello che mostra costantemente i migliori risultati. Sviluppare modelli in questo modo richiede molto tempo e risorse, ma il compromesso potrebbe valere la pena, soprattutto per i modelli di intelligenza artificiale utilizzati in contesti medici o in altre aree in cui la sicurezza è una preoccupazione principale. Come ha spiegato D’Amour via MIT Technology Review:

“Dobbiamo migliorare la specifica esatta delle nostre esigenze per i nostri modelli. Perché spesso ciò che accade è che scopriamo queste esigenze solo dopo che il modello ha fallito nel mondo.”

Daniel Nelson

Blogger e programmatore con specializzazioni in Machine Learning e Deep Learning argomenti. Daniel spera di aiutare gli altri a utilizzare il potere dell'AI per il bene sociale.

Unite.AI

Ricercatori di Google scoprono il problema di underspecification che ostacola molti modelli di intelligenza artificiale

You may like