mozzicone L'overinterpretazione può essere una minaccia più grande e più intrattabile dell'overfitting - Unite.AI
Seguici sui social

Intelligenza Artificiale

L'overinterpretazione può essere una minaccia più grande e più intrattabile dell'overfitting

mm
aggiornato on

Se alla tua buona amica Alice piace indossare maglioni gialli, vedrai molti più maglioni gialli rispetto alla persona media. Dopo un po', è possibile che quando vedi a diverso donna che indossa un maglione giallo, il concetto centrale Alice mi verrà in mente.

Se vedi una donna che indossa un maglione giallo che assomiglia Alice un po', potresti anche momentaneamente scambiarla per la tua amica.

Ma è non Alice. Alla fine te ne renderai conto maglione giallo non è una chiave utile per identificare Alice, dal momento che non le indossa mai d'estate, e non le indossa sempre nemmeno d'inverno. A un certo punto dell'amicizia, inizierai a retrocedere maglione giallo come possibile Alice identificatore, perché la tua esperienza di esso è stata insoddisfacente e l'energia cognitiva utilizzata per mantenerlo scorciatoia non viene spesso premiato.

Se utilizzi un sistema di riconoscimento basato sulla visione artificiale, tuttavia, è del tutto possibile che vedi Alice ovunque vedi un maglione giallo.

Non è colpa tua; sei stato incaricato di identificare Alice a tutti i costi, dalle informazioni minime disponibili, e non mancano le risorse cognitive per mantenere questo riduttivo Alice presepe.

Discernimento perturbante

Secondo un recente articolo del MIT Computer Science & Artificial Intelligence Laboratory (CSAIL) e Amazon Web Services, questa sindrome, soprannominata sovrainterpretazione, è diffuso nel campo della ricerca sulla visione artificiale (CV); non può essere mitigato affrontando l'overfitting (poiché non è un'aggiunta diretta all'overfitting); è comunemente evidenziato nella ricerca che utilizza i due set di dati più influenti nel riconoscimento e nella trasformazione delle immagini, CIFAR-10 ed IMAGEnet; e non ha rimedi facili – certamente no economico rimedi.

I ricercatori hanno scoperto che riducendo le immagini di input training a un mero 5% del loro contenuto coerente, un'ampia gamma di framework popolari ha continuato a classificare correttamente le immagini, che appaiono, nella maggior parte dei casi, come "comprensioni" visive a qualsiasi osservatore umano:

Immagini di addestramento originali da CIFAR-10, ridotte a solo il 5% del contenuto di pixel originale, ma classificate correttamente da una gamma di quadri di visione artificiale molto popolari con una precisione compresa tra il 90 e il 99%. Fonte: https://arxiv.org/pdf/2003.08907.pdf

Immagini di addestramento originali da CIFAR-10, ridotte a solo il 5% del contenuto di pixel originale, ma classificate correttamente da una gamma di quadri di visione artificiale molto popolari con una precisione compresa tra il 90 e il 99%. Fonte: https://arxiv.org/pdf/2003.08907.pdf

In alcuni casi, i quadri di classificazione trovano effettivamente queste immagini ridotte più facile classificare correttamente rispetto ai frame completi nei dati di addestramento originali, con l'osservazione degli autori "[Le CNN] sono più sicure di questi sottoinsiemi di pixel che delle immagini complete".

Ciò indica un tipo di "imbroglio" potenzialmente minaccioso che si verifica come pratica comune per i sistemi CV che utilizzano set di dati di riferimento come CIFAR-10 e ImageNet e framework di riferimento come VGG16, ResNet20e ResNet18.

La sovrainterpretazione ha notevoli ramificazioni per i sistemi di veicoli autonomi basati su CV, che sono stati messi a fuoco ultimamente con La decisione di Tesla favorire l'interpretazione delle immagini rispetto a LiDAR e altri sistemi di rilevamento basati sui raggi per algoritmi di guida autonoma.

Anche se 'apprendimento scorciatoia' è un sfida nota, e un campo di ricerca attiva nella visione artificiale, gli autori dell'articolo commentano che il  Ricerca tedesco/canadese che in particolare ha inquadrato il problema nel 2019 non riconosce che i sottoinsiemi di pixel "spurei" che caratterizzano la sovrainterpretazione sono "dati statisticamente validi", che potrebbero dover essere affrontati in termini di architettura e approcci di livello superiore, piuttosto che attraverso una cura più attenta di set di dati.

I carta è intitolato La sovrainterpretazione rivela patologie del modello di classificazione delle immagini, e proviene da Brandon Carter, Siddhartha Jain e David Gifford di CSAIL, in collaborazione con Jonas Mueller di Amazon Web Services. Il codice per la carta è disponibile all'indirizzo https://github.com/gifford-lab/overinterpretation.

Riduzione dei dati

Le immagini prive di dati che i ricercatori hanno utilizzato sono definite da loro Sottoinsiemi di input sufficienti (SIS) - in effetti, un'immagine SIS contiene il minimo "telaio esterno" possibile che può delineare un'immagine abbastanza bene da consentire a un sistema di visione artificiale di identificare il soggetto originale dell'immagine (cioè cane, nave, Ecc.).

Nella riga sopra, vediamo le immagini di convalida ImageNet complete; di seguito, i sottoinsiemi SIS, correttamente classificati da un modello Inception V3 con una confidenza del 90%, basata, apparentemente, su tutto ciò che resta dell'immagine – contesto di sfondo. Naturalmente, l'ultima colonna ha notevoli implicazioni per il riconoscimento della segnaletica negli algoritmi dei veicoli a guida autonoma.

Nella riga sopra, vediamo le immagini di convalida ImageNet complete; di seguito, i sottoinsiemi SIS, correttamente classificati da un modello Inception V3 con una confidenza del 90%, basata, apparentemente, su tutto ciò che resta dell'immagine – contesto di sfondo. Naturalmente, l'ultima colonna ha notevoli implicazioni per il riconoscimento della segnaletica negli algoritmi dei veicoli a guida autonoma.

Commentando i risultati ottenuti nell'immagine sopra, i ricercatori osservano:

"Troviamo che i pixel SIS sono concentrati al di fuori dell'oggetto effettivo che determina l'etichetta della classe. Ad esempio, nell'immagine della "pizza", il SIS si concentra sulla forma del piatto e sul tavolo di sfondo, piuttosto che sulla pizza stessa, suggerendo che il modello potrebbe generalizzare male su immagini contenenti diversi elementi circolari su un tavolo. Nell'immagine del "panda gigante", il SIS contiene bambù, che probabilmente è apparso nella raccolta di foto di ImageNet per questa classe.

"Nelle immagini del "semaforo" e del "segnale stradale", il SIS consiste di pixel nel cielo, suggerendo che i sistemi di veicoli autonomi che possono dipendere da questi modelli dovrebbero essere attentamente valutati per le patologie di sovrainterpretazione."

Le immagini SIS non vengono ritagliate a caso, ma sono state create per il progetto da un processo Batched Gradient Backselect, su Inizio V3 e ResNet50 tramite PyTorch. Le immagini sono derivate da una routine di ablazione che tiene conto della relazione tra la capacità di un modello di classificare accuratamente un'immagine e le aree in cui i dati originali vengono rimossi iterativamente.

Per confermare la validità del SIS, gli autori hanno testato un processo di casuale rimozione dei pixel e ha trovato i risultati "significativamente meno informativi" nei test, indicando che le immagini SIS rappresentano veramente i dati minimi di cui i modelli e i set di dati più diffusi hanno bisogno per fare previsioni accettabili.

Uno sguardo a una qualsiasi delle immagini ridotte suggerisce che questi modelli dovrebbero fallire in linea con i livelli umani di discernimento visivo, il che porterebbe a una precisione mediana inferiore al 20%.

Con le immagini SIS ridotte a solo il 5% dei loro pixel originali, gli esseri umani raggiungono a malapena un tasso di successo della classificazione "superiore a quello casuale", rispetto al tasso di successo del 90-99% dei popolari set di dati e framework studiati nel documento.

Con le immagini SIS ridotte a solo il 5% dei loro pixel originali, gli esseri umani raggiungono a malapena un tasso di successo della classificazione "superiore a quello casuale", rispetto al tasso di successo del 90-99% dei popolari set di dati e framework studiati nel documento.

Oltre l'overfit

L'overfitting si verifica quando un modello di machine learning si allena in modo così estensivo su un set di dati da diventare abile nel fare previsioni quel dato specifico, ma è molto meno efficace (o addirittura totalmente inefficace) sui nuovi dati introdotti dopo l'addestramento (fuori distribuzione dati).

I ricercatori osservano che l'attuale interesse accademico e industriale nella lotta contro l'overfitting non risolverà contemporaneamente la sovrainterpretazione, perché i sottoinsiemi di pixel ridotti al minimo che rappresentano immagini identificabili per i computer e macchie senza senso per gli esseri umani sono in realtà dati realmente applicabili, piuttosto che una concentrazione "ossessionata" su dati scarsamente curati o anemici:

'L'overinterpretazione è correlata all'overfitting, ma l'overfitting può essere diagnosticato attraverso una ridotta accuratezza del test. La sovrainterpretazione può derivare da veri segnali statistici nella distribuzione del set di dati sottostante che derivano da particolari proprietà della fonte dei dati (ad esempio, righelli dei dermatologi).

"Pertanto, la sovrainterpretazione può essere più difficile da diagnosticare in quanto ammette decisioni prese in base a criteri statisticamente validi, ei modelli che utilizzano tali criteri possono eccellere nei benchmark."

Possibili soluzioni

Gli autori lo suggeriscono assemblaggio di modelli, in cui più architetture contribuiscono al processo di valutazione e formazione, potrebbe in qualche modo mitigare la sovrainterpretazione. Hanno anche scoperto che l'applicazione perdita di ingresso, originariamente progettato per impedire l'overfitting, ha portato a "una piccola diminuzione" dell'accuratezza del test CIFAR-10 (che è probabilmente desiderabile), ma a un aumento "significativo" (~ 6%) dell'accuratezza dei modelli sui dati non visti. Tuttavia, le cifre basse suggeriscono che è improbabile che eventuali cure successive per l'overfitting risolvano completamente l'overinterpretazione.

Gli autori concedono la possibilità di utilizzo mappe di salienza per indicare quali aree di un'immagine sono pertinenti per l'estrazione delle caratteristiche, ma si noti che ciò vanifica l'obiettivo dell'analisi automatizzata delle immagini e richiede annotazioni umane che non sono fattibili su larga scala. Osservano inoltre che sono state trovate mappe di salienza solo stimatori grezzi in termini di comprensione delle operazioni del modello.

Il documento conclude:

'Data l'esistenza di sottoinsiemi di pixel non salienti che da soli sono sufficienti per una corretta classificazione, un modello può basarsi esclusivamente su tali modelli. In questo caso, un metodo di interpretabilità che descriva fedelmente il modello dovrebbe fornire queste motivazioni prive di senso, mentre i metodi di interpretabilità che distorcono le motivazioni verso i precedenti umani possono produrre risultati che inducono in errore gli utenti a pensare che i loro modelli si comportino come previsto.'

 

 

Pubblicato per la prima volta il 13 gennaio 2022.