Intelligenza artificiale
La soluzione unica di DALL-E 2 per i doppi significati

Chiunque abbia imparato l’italiano impara presto a prestare attenzione al contesto quando descrive uno scopa, perché la parola italiana per questo oggetto domestico banale ha un significato estremamente NSFW secondo significato come verbo*. Sebbene impariamo presto a distinguere la mappatura semantica e l’applicabilità delle parole con più significati, questa non è una capacità facile da trasmettere a sistemi di sintesi di immagini iperscalari come DALL-E 2 e Stable Diffusion, perché si basano sul modulo di pre-addestramento linguistico-immagine contrastivo di OpenAI (CLIP), che tratta gli oggetti e le loro proprietà in modo più lasco (ma che sta guadagnando sempre più terreno nello spazio di sintesi di immagini e video di diffusione latente).
Studiando questo deficit, una nuova collaborazione di ricerca dell’Università Bar-Ilan e dell’Istituto di intelligenza artificiale Allen offre uno studio approfondito sulla misura in cui DALL-E 2 è incline a tali errori semantici:

Doppi significati divisi in più interpretazioni in DALL-E 2 – sebbene qualsiasi sistema di diffusione latente possa produrre tali esempi. Nell’immagine in alto a destra, rimuovere ‘oro’ dal prompt cambia la specie di pesce, mentre nel caso del ‘passaggio pedonale’, è necessario specificare esplicitamente la superficie stradale per rimuovere l’associazione duplicata. Fonte: https://export.arxiv.org/pdf/2210.10606
Gli autori hanno scoperto che questa tendenza a interpretare le parole e le frasi in modo doppio sembra non essere solo comune a tutti i modelli di diffusione guidati da CLIP, ma che peggiora man mano che i modelli vengono addestrati su quantità di dati sempre più grandi. Il documento nota che le versioni ‘ridotte’ dei modelli di testo-immagine, tra cui DALL-E Mini (ora Craiyon), producono questi tipi di errori con molta minore frequenza e che Stable Diffusion erra meno – sebbene solo perché, molto spesso, non segue affatto il prompt, il che è un altro tipo di errore.

Il semplice prompt ‘data’ costringe DALL-E 2 a invocare due dei diversi significati della parola, mentre la parola ‘ventilatore’ si divide anche in due delle sue mappe semantiche, e, nella terza immagine, la frase ‘cono’ trasforma in modo affidabile il cibo non specificato nel prompt in gelato, che è associato al ‘cono’.
Spiegando come eseguiamo separazioni lessicali efficienti, il documento afferma:
‘Mentre i simboli – così come le strutture di frase – possono essere ambigui, una volta che un’interpretazione è stata costruita, l’ambiguità è già stata risolta. Ad esempio, mentre il simbolo ‘pipistrello’ in un ‘pipistrello che vola’ può essere interpretato come un bastone di legno o un animale, le nostre possibili interpretazioni della frase sono o un bastone di legno che vola o un animale che vola, ma mai entrambi allo stesso tempo. Una volta che la parola ‘pipistrello’ è stata utilizzata nell’interpretazione per denotare un oggetto (ad esempio un bastone), non può essere riutilizzata per denotare un altro oggetto (un animale) nella stessa interpretazione.’
DALL-E 2, osserva il documento, non è vincolato in questo modo:

‘Un pipistrello sta volando sopra uno stadio di baseball’ – la prima immagine è dal documento, le altre tre ottenute semplicemente alimentando lo stesso prompt in DALL-E 2.
Questa proprietà è stata denominata sensibilità alle risorse.
Il documento identifica tre comportamenti anomali esibiti da DALL-E 2: che una parola o una frase possa essere interpretata e divisa in due entità distinte, rendendo un oggetto o un concetto per ciascuno nella stessa scena; che una parola possa essere interpretata come un modificatore di due entità diverse (vedi gli esempi di ‘pesce d’oro’ e altri sopra); e che una parola possa essere interpretata contemporaneamente come un modificatore e un’entità alternativa – esemplificata dal prompt ‘un sigillo sta aprendo una lettera’:

‘Un sigillo sta aprendo una lettera’ – la prima illustrazione è dal documento, le tre adiacenti sono riproduzioni identiche da DALL-E 2. Gli esempi fotorealistici in basso avevano il testo aggiuntivo ‘foto, Canon50, 85mm, F5.6, foto premiata’.
Gli autori identificano due modalità di guasto per i modelli di diffusione in questo senso: che i risultati dei prompt dell’utente con parole ambigue spesso esibiranno la parola concretizzata insieme a una manifestazione del concetto; e perdita di concetto, dove le proprietà di un oggetto ‘perdono’ in un altro oggetto rappresentato.
‘Presi insieme, i fenomeni che esaminiamo forniscono prove per le limitazioni nella capacità linguistica di DALLE-2 e aprono strade per future ricerche che scoprirebbero se queste derivano da problemi con la codifica del testo, il modello generativo o entrambi. Più in generale, l’approccio proposto può essere esteso ad altri scenari in cui il processo di decodifica viene utilizzato per scoprire il bias induttivo e le carenze dei modelli di testo-immagine.’
Utilizzando 17 parole che faranno in modo che DALL-E 2 divida l’input in più output, gli autori hanno osservato che la duplicazione dell’omonimo si è verificata in oltre l’80% di 216 immagini rappresentate.
I ricercatori hanno utilizzato coppie di controllo-stimolo per esaminare la misura in cui è necessario un linguaggio specifico e arguibile per evitare che queste duplicazioni si verifichino. Per i test di entità-proprietà, sono state create 10 coppie e gli autori notano che i prompt di stimolo provocano la proprietà condivisa nel 92,5% dei casi, mentre il prompt di controllo la provoca solo nel 6,6% dei casi.
‘Per dimostrare, considera una zebra e una strada, qui, zebra è un’entità, ma modifica la strada, e DALLE-2 costantemente genera passaggi pedonali, forse a causa della somiglianza delle strisce di zebra con un passaggio pedonale. E in linea con la nostra congettura, il controllo una zebra e una strada di ghiaia specifica un tipo di strada che di solito non ha passaggi pedonali, e in effetti, tutti i nostri campioni di controllo per questo prompt non contengono un passaggio pedonale.’













