Intelligenza artificiale

Insegnare all’AI a capire e utilizzare le immagini nel dialogo

Published July 21, 2021

Updated April 28, 2026

Martin Anderson

I ricercatori della Corea del Sud hanno sviluppato un dataset progettato per aiutare la ricerca sulla comprensione dell’AI del modo in cui gli esseri umani utilizzano le immagini nel dialogo e per aiutare i modelli di linguaggio naturale a partecipare a questo sviluppo recente nelle comunicazioni umane.

Il paper, del KAIST a Daedeok Innopolis, nota che la ricerca su tali sistemi di dialogo multi-modali negli ultimi dieci anni è stata ostacolata da dataset e metodologie centrate su discipline periferiche all’argomento, come visual question answering e image captioning.

In questi approcci più vecchi, le immagini vengono valutate al di fuori del contesto lessicale di una conversazione, senza comprendere il modo in cui il dialogo è arricchito e sviluppato dalle risposte alle immagini, e senza uno schema cross-domain per decodificare i contributi delle contribuzioni visive al discorso.

Immagini come faccette di primo livello del dialogo

Molti degli approcci menzionati fino ad ora sono stati iniziative o sviluppi del braccio di ricerca dell’AI di Microsoft, che nel 2017 ha anche esaminato l’argomento delle conversazioni multi-modalità che sono iniziate da un’immagine, piuttosto che utilizzare liberamente le immagini come componenti del dialogo.

Per affrontare la carenza di dati di ricerca, i ricercatori sudcoreani hanno sviluppato un dataset di 45.000 istanze di dialogo che coinvolgono l’uso ad hoc di immagini, senza concentrarsi su immagini di ‘meme’ virali; queste, sebbene siano un’area di interesse nella ricerca linguistica, sono argomenti meno impegnativi, poiché il significato dei meme virali può essere inferito più facilmente attraverso migliaia di utilizzi in contesto sui social media.

Sviluppo di illustrazioni come sostituto del testo

Al fine di sviluppare una metodologia per la traslitterazione bilaterale parola/frase > immagine, i ricercatori sudcoreani hanno addestrato un sistema di apprendimento automatico a sostituire parti di una conversazione basata su testo con contenuto di immagini semanticamente rilevante.

Architettura del sistema coreano per la generazione di un dataset per la ricerca sul dialogo multi-modale. Fonte: https://arxiv.org/pdf/2107.08685.pdf

L’elaborazione pre-testo delle frasi di destinazione ha comportato la cancellazione di stop word che potrebbero inibire la previsione della successiva mossa nella conversazione, e la potatura di scambi di qualità inferiore tramite filtri di similarità contestuale.

Per testare l’utilità del dataset, i ricercatori hanno impostato un modulo per prevedere il prossimo ‘turn’ nel dialogo, considerando il contesto della conversazione e le immagini coinvolte.

Il sistema di valutazione umana utilizzato nella ricerca.

Cinque dataset esterni sono stati utilizzati come materiale di base per il dataset 45k (che è disponibile su GitHub). Tre sono elementi basati su testo: DailyDialog, un set di testo multi-turn manualmente annotato del 2017; e EmpatheticDialogues e PersonaChat, entrambi del 2018. I due dataset basati su immagini utilizzati sono stati MS-COCO e Flicker30k.

Coppie di immagini/testo – schema JSON delle frasi nel dataset, associate a immagini (in questo esempio) dal database di immagini COCO di Microsoft.

La sostituzione del testo con l’immagine per il sistema è stata alimentata dalla rete di ragionamento semantico visivo (VSRN) pre-addestrata, sviluppata nel 2019 presso l’Università del Nord-Est a Boston. VSRN è stato impostato per operare su frasi manualmente pre-selezionate dai dataset di testo contribuenti.

Stabilire la coerenza

La coerenza dei dataset di origine è stata stabilita sviluppando sei combinazioni di ciascun dataset di dialogo, correlate a istanze in ciascun dataset di immagini, e valutate su più turni da esseri umani.

La valutazione umana si basava su tre criteri: coerenza con il contesto dello scambio; rilevanza dell’immagine per il concetto centrale che l’immagine stava cercando di esprimere; e la misura in cui l’immagine conteneva oggetti chiave dalla frase di destinazione.

Considerando l’ultimo criterio, si potrebbe sostenere che lo schema che i ricercatori hanno deciso di utilizzare ha largamente scontato la possibilità di possibilità umoristiche, sarcastiche, astratte o metafisiche per il significato semantico di un’immagine che potrebbe essere iniettata in una conversazione di testo.

Tuttavia, questo è un lavoro seminale, e deve iniziare da qualche parte, mentre vengono fatti notevoli sforzi altrove nel settore dell’elaborazione del linguaggio naturale (NLP) per mappare istanze di sarcasmo, tra altri esempi meno tangibili della relazione immagine/testo.

Test

Per testare la struttura di generazione dei dati, i ricercatori hanno utilizzato un modello di recupero a tre parti basato sulla ricerca Image-Chat di Facebook del 2020. Il modulo comprende Resnext-101 come encoder di immagini; BERT di Google per l’encoder di testo; e un modulo di fusione personalizzato per questi.

Il sistema ha raggiunto 50,35 e 14,38 nella previsione della frase corrente e successiva, migliorando la baseline per ciascun compito.

In seguito, due ricercatori sono stati incaricati di creare 100 dialoghi multi-modalità inserendo immagini nelle conversazioni manualmente, e di eseguire il sistema contro queste conversazioni multi-modalità ‘organiche’. Il sistema è stato in grado di prevedere scambi correnti e di prossimo turno con una elevata consapevolezza del contesto anche per questi esempi ad hoc.

Risultati del test per il sistema di generazione del dataset multi-modale coreano, che rivela una correlazione costantemente alta tra la similarità testo-immagine e i punteggi delle domande basate su esseri umani sui dati stessi.