mozzicone I modelli di deep learning potrebbero avere difficoltà a riconoscere le immagini generate dall'intelligenza artificiale - Unite.AI
Seguici sui social

Intelligenza Artificiale

I modelli di deep learning potrebbero avere difficoltà a riconoscere le immagini generate dall'intelligenza artificiale

mm
aggiornato on

I risultati di un nuovo articolo indicano che l’intelligenza artificiale all’avanguardia è significativamente meno in grado di riconoscere e interpretare le immagini sintetizzate dall’intelligenza artificiale rispetto alle persone, il che potrebbe essere motivo di preoccupazione in un clima imminente in cui i modelli di apprendimento automatico saranno sempre più addestrati su dati sintetici, e dove non sarà necessariamente noto se i dati siano "reali" o meno.

Qui vediamo il modello di previsione resnext101_32x8d_wsl in difficoltà nella categoria "bagel". Nei test, si riteneva che si fosse verificato un errore di riconoscimento se la parola target principale (in questo caso "bagel") non era presente nei primi cinque risultati previsti. Fonte: https://arxiv.org/pdf/2208.10760.pdf

Qui vediamo il modello di previsione resnext101_32x8d_wsl in difficoltà nella categoria "bagel". Nei test, si riteneva che si fosse verificato un errore di riconoscimento se la parola target principale (in questo caso "bagel") non era presente nei primi cinque risultati previsti. Fonte: https://arxiv.org/pdf/2208.10760.pdf

La nuova ricerca ha testato due categorie di strutture di riconoscimento basate sulla visione artificiale: riconoscimento degli oggetti e risposta visiva alle domande.VQA).

A sinistra, inferenza di successi e fallimenti da un sistema di riconoscimento di oggetti; a destra, attività VQA progettate per sondare la comprensione dell'IA di scene e immagini in un modo più esplorativo e significativo. Fonti: https://arxiv.org/pdf/2105.05312.pdf e https://arxiv.org/pdf/1505.00468.pdf

A sinistra, inferenza di successi e fallimenti da un sistema di riconoscimento di oggetti; a destra, attività VQA progettate per sondare la comprensione dell'IA di scene e immagini in un modo più esplorativo e significativo. Fonti: https://arxiv.org/pdf/2105.05312.pdf e https://arxiv.org/pdf/1505.00468.pdf

Su dieci modelli all'avanguardia testati su set di dati curati generati da framework di sintesi di immagini DALL-MI2 ed Metà viaggio, il modello con le migliori prestazioni è stato in grado di raggiungere solo il 60% e l'80% di accuratezza tra i primi 5 nei due tipi di test, mentre ImmagineNet, addestrato su dati non sintetici del mondo reale, può raggiungere rispettivamente il 91% e il 99% nelle stesse categorie, mentre le prestazioni umane sono in genere notevolmente più elevate.

Affrontare i problemi in giro spostamento di distribuzione (noto anche come "Model Drift", in cui i modelli di previsione sperimentano una capacità predittiva ridotta quando vengono spostati dai dati di addestramento ai dati "reali"), il documento afferma:

“Gli esseri umani sono in grado di riconoscere le immagini generate e rispondere facilmente alle domande su di esse. Concludiamo che a) i modelli profondi fanno fatica a comprendere il contenuto generato e potrebbero fare meglio dopo la messa a punto, eb) c'è un ampio spostamento di distribuzione tra le immagini generate e le fotografie reali. Lo spostamento della distribuzione sembra essere dipendente dalla categoria.'

Dato il volume di immagini sintetiche che già inondano Internet sulla scia di quelle della scorsa settimana open source sensazionale dei potenti Diffusione stabile modello di sintesi della diffusione latente, si presenta naturalmente la possibilità che quando le immagini "false" si riversano in set di dati standard del settore come Scansione comune, le variazioni di accuratezza nel corso degli anni potrebbero essere notevolmente influenzate da immagini "irreali".

Sebbene i dati sintetici siano stati annunciata come potenziale salvatore del settore della ricerca sulla visione artificiale affamato di dati, che spesso non dispone di risorse e budget per la curation iperscalare, il nuovo torrente di immagini Stable Diffusion (insieme all'aumento generale delle immagini sintetiche dall'avvento e commercializzazione of DALL-MI2) è improbabile che vengano tutti dotati di utili etichette, annotazioni e hashtag che li distinguono come "falsi" al punto che gli avidi sistemi di visione artificiale li raschiano da Internet.

La velocità di sviluppo nei framework di sintesi di immagini open source ha notevolmente superato la nostra capacità di classificare le immagini da questi sistemi, portando a crescente interesse per il rilevamento di "immagini false". sistemi, simili a rilevamento deepfake sistemi, ma incaricato di valutare intere immagini piuttosto che sezioni di volti.

Il nuovo documento è intitolato Quanto sono bravi i modelli profondi nella comprensione delle immagini generate?, e proviene da Ali Borji della startup di machine learning Quintic AI di San Francisco.

Dati

Lo studio precede il rilascio di Stable Diffusion e gli esperimenti utilizzano i dati generati da DALL-E 2 e Midjourney in 17 categorie, tra cui elefante, fungo, pizza, salatino, trattore ed coniglio.

Esempi delle immagini da cui i sistemi di riconoscimento e VQA testati sono stati sfidati per identificare il concetto chiave più importante.

Esempi delle immagini da cui i sistemi di riconoscimento e VQA testati sono stati sfidati per identificare il concetto chiave più importante.

Le immagini sono state ottenute tramite ricerche sul Web e tramite Twitter e, in conformità con le politiche di DALL-E 2 (almeno, al tempo), non includeva immagini raffiguranti volti umani. Sono state scelte solo immagini di buona qualità, riconoscibili dall'uomo.

Sono state curate due serie di immagini, una per ciascuna delle attività di riconoscimento degli oggetti e VQA.

Il numero di immagini presenti in ogni categoria testata per il riconoscimento degli oggetti.

Il numero di immagini presenti in ogni categoria testata per il riconoscimento degli oggetti.

Testare il riconoscimento degli oggetti

Per i test di riconoscimento degli oggetti sono stati testati dieci modelli, tutti addestrati su ImageNet: AlexNet, ResNet152, MobileNetV2, Rete densa, RisAvanti, Rete Google, ResNet101, Inizio_V3, Deie ResNext_WSL.

Alcune delle classi nei sistemi testati erano più granulari di altre, richiedendo l'applicazione di approcci basati sulla media. Ad esempio, ImageNet contiene tre classi che si riferiscono agli "orologi", ed era necessario definire una sorta di metrica arbitrale, in cui l'inclusione di qualsiasi "orologio" di qualsiasi tipo nelle prime cinque etichette ottenute per qualsiasi immagine fosse considerata un successo in quel caso.

Prestazioni per modello in 17 categorie.

Prestazioni per modello in 17 categorie.

Il modello con le migliori prestazioni in questo round è stato resnext101_32x8d_ws, raggiungendo quasi il 60% per i primi 1 (ovvero, i tempi in cui la sua previsione preferita su cinque ipotesi era il concetto corretto incarnato nell'immagine) e l'80% per i primi cinque ( cioè il concetto desiderato era almeno elencato da qualche parte nelle cinque ipotesi del modello sull'immagine).

L'autore suggerisce che le buone prestazioni di questo modello sono dovute al fatto che è stato addestrato per la previsione debolmente supervisionata degli hashtag nelle piattaforme dei social media. Tuttavia, questi risultati di punta, osserva l'autore, sono notevolmente inferiori a quelli che ImageNet è in grado di ottenere su dati reali, ovvero il 91% e il 99%. Suggerisce che ciò sia dovuto a una grande disparità tra la distribuzione delle immagini ImageNet (che sono anche scartate dal web) e le immagini generate.

Le cinque categorie più difficili per il sistema, in ordine di difficoltà, erano Kitesurf, tartaruga, scoiattolo, occhiali da sole ed casco. Il documento osserva che il Kitesurf la classe è spesso confusa con palloncino, paracadute ed ombrello, sebbene queste distinzioni siano banalmente facili da individuare per gli osservatori umani.

Alcune categorie, tra cui Kitesurf ed tartaruga, ha causato un fallimento universale in tutti i modelli, mentre altri (in particolare salatino ed trattore) ha portato a un successo quasi universale tra i modelli testati.

Categorie polarizzanti: alcune delle categorie target scelte hanno ingannato tutti i modelli oppure sono state abbastanza facili da identificare per tutti i modelli.

Categorie polarizzanti: alcune delle categorie target scelte hanno ingannato tutti i modelli oppure sono state abbastanza facili da identificare per tutti i modelli.

Gli autori ipotizzano che questi risultati indichino che tutti i modelli di riconoscimento degli oggetti possono condividere punti di forza e debolezze simili.

Test di risposta visiva alle domande

Successivamente, l'autore ha testato i modelli VQA su VQA aperti e in forma libera, con domande binarie (ovvero domande a cui la risposta può essere solo 'sì' o 'no'). Il documento rileva che i recenti modelli VQA all'avanguardia sono in grado di raggiungere una precisione del 95% sul Set di dati VQA-v2.

Per questa fase di test, l'autore ha curato 50 immagini e formulato attorno ad esse 241 domande, di cui 132 con risposta positiva e 109 negativa. La lunghezza media delle domande era di 5.12 parole.

Questo round ha utilizzato il Modello OFA, un framework indipendente dal compito e dalla modalità per testare la completezza del compito, ed è stato recentemente il miglior marcatore nel Set standard di test VQA-v2. OFA ha ottenuto un'accuratezza del 77.27% sulle immagini generate, rispetto al proprio punteggio del 94.7% nel set test-std VQA-v2.

Esempi di domande e risultati della sezione VQA dei test. 'GT' è 'Ground Truth', cioè la risposta corretta.

Esempi di domande e risultati della sezione VQA dei test. 'GT' è 'Ground Truth', cioè la risposta corretta.

L'autore dell'articolo suggerisce che parte del motivo potrebbe essere che le immagini generate contengono concetti semantici assenti dal set di dati VQA-v2 e che le domande scritte per i test VQA potrebbero essere più impegnative rispetto allo standard generale delle domande VQA-v2, sebbene egli ritiene che il primo motivo sia più probabile.

LSD nel flusso di dati?

Opinione La nuova proliferazione di immagini sintetizzate dall'intelligenza artificiale, che possono presentare congiunzioni istantanee e astrazioni di concetti fondamentali che non esistono in natura e che sarebbe proibitivamente dispendioso in termini di tempo per essere prodotte con metodi convenzionali, potrebbe presentare un problema particolare per i dati debolmente supervisionati: sistemi di raccolta, che potrebbero non essere in grado di fallire con grazia, in gran parte perché non sono stati progettati per gestire dati sintetici ad alto volume e senza etichetta.

In tali casi, potrebbe esserci il rischio che questi sistemi racchiudano una percentuale di immagini sintetiche "bizzarre" in classi errate semplicemente perché le immagini presentano oggetti distinti che in realtà non appartengono insieme.

"L'astronauta a cavallo" è forse diventato l'immagine più emblematica per la nuova generazione di sistemi di sintesi delle immagini, ma queste relazioni "irreali" potrebbero entrare nei sistemi di rilevamento reali se non si presta attenzione. Fonte: https://twitter.com/openai/status/1511714545529614338?lang=it

"L'astronauta a cavallo" è forse diventato l'immagine più emblematica per la nuova generazione di sistemi di sintesi delle immagini, ma queste relazioni "irreali" potrebbero entrare nei sistemi di rilevamento reali se non si presta attenzione. Fonte: https://twitter.com/openai/status/1511714545529614338?lang=it

A meno che ciò non possa essere impedito nella fase di pre-elaborazione prima dell'addestramento, tali pipeline automatizzate potrebbero portare ad associazioni improbabili o addirittura grottesche addestrate nei sistemi di apprendimento automatico, degradandone l'efficacia e rischiando di trasferire associazioni di alto livello in sistemi e sottoclassi a valle e categorie.

In alternativa, immagini sintetiche disgiunte potrebbero avere un "effetto raggelante" sull'accuratezza dei sistemi successivi, nell'eventualità che dovessero emergere architetture nuove o modificate che tentano di spiegare ad hoc immagini sintetiche e gettare una rete troppo ampia.

In entrambi i casi, le immagini sintetiche nell'era successiva alla diffusione stabile potrebbero rivelarsi un mal di testa per il settore della ricerca sulla visione artificiale, i cui sforzi hanno reso possibili queste strane creazioni e capacità, anche perché mette in pericolo la speranza del settore che la raccolta e la cura dei dati possano alla fine sarà molto più automatizzato di quanto non sia attualmente, e molto meno costoso e dispendioso in termini di tempo.

 

Pubblicato per la prima volta il 1 settembre 2022.