Artificiell intelligens

Att lära AI att förstå och använda bilder i dialog

Published July 21, 2021

Updated April 28, 2026

Martin Anderson

Forskare från Sydkorea har utvecklat en dataset som är utformad för att hjälpa till att forska om AI:s förståelse för hur människor använder bilder i dialog, och för att hjälpa naturliga språkmodeller att delta i denna mycket senaste utveckling inom mänsklig kommunikation.

The paper, från KAIST vid Daedeok Innopolis, noterar att forskning om sådana multimodala dialogsystem under de senaste tio åren har hämmats av dataset och metoder som fokuserar på discipliner som är perifera till ämnet, såsom visuell frågebesvarande och bildbeskrivning.

I dessa äldre tillvägagångssätt utvärderas bilder utanför den lexikala kontexten av en konversation, utan förståelse för hur dialogen förbättras och utvecklas av bildsvar, och utan en tvärdisciplinär schema för att avkoda bidragen från visuella bidrag till diskurs.

Bilder som första-klassens aspekter av dialog

Många av de ovannämnda tillvägagångssätten hittills har varit initiativ eller utvecklingar från Microsofts AI-forskningsarm, som 2017 också undersökte ämnet multimodala samtal som inleds av en bild, snarare än att fritt använda bilder som dialogkomponenter.

För att åtgärda bristen på forskningsdata har de sydkoreanska forskarna utvecklat en dataset på 45 000 dialoginstanser som involverar den ad hoc-användningen av bilder, utan att fokusera på viral ‘meme’-bilder; den senare, även om det är ett område av intresse inom språkforskning, är förmodligen mindre av en utmaning, eftersom meningen med virala memes kan härledas mer lätt genom tusentals sammanhangsanvändningar på sociala medieplattformar.

Utveckling av illustrationer som en ersättning för text

För att utveckla en metod för ord/fras > bild bilateral translitterering har de sydkoreanska forskarna tränat ett maskinlärningssystem för att ersätta delar av en textbaserad konversation med semantiskt relevanta bildinnehåll.

Arkitektur för det koreanska systemet för att generera en dataset för multimodalt dialogforskning. Källa: https://arxiv.org/pdf/2107.08685.pdf

Förbearbetning av målfraser innebar borttagning av stop-ord som kan hämma förutsägelsen av följande svar i konversationen, och beskärning av undermåliga kvalitetsutbyten via kontextuell likhetsfilter.

För att testa datasetens användbarhet satte forskarna en modul för att förutsäga nästa “tur” i dialogen medan de beaktade konversationens sammanhang och de involverade bilderna.

Det mänskliga utvärderingsgränssnittet som användes i forskningen.

Fem externa dataset användes som basmaterial för 45k-dataseten (som är tillgänglig på GitHub). Tre är textbaserade element: DailyDialog, en manuellt annoterad multi-turn textbaserad uppsättning från 2017; och Facebooks EmpatheticDialogues och PersonaChat, båda från 2018. De två bildbaserade dataseten som användes var MS-COCO och Flicker30k.

Bild/text-par – JSON-schema för fraser i dataseten, associerade med bilder (i det här fallet) från Microsofts COCO-bildbank.

Text-till-bild-ersättning för systemet drevs av det förtränade Visuellt semantiskt resonemangsnätverk (VSRN), utvecklat 2019 vid Northeastern University i Boston. VSRN var inställt för att fungera på manuellt förvalda fraser från de bidragande textdataseten.

Att upprätta sammanhang

Sammanhanget i källdataseten etablerades genom att utveckla sex kombinationer av varje dialogdataset, korrelerade till instanser i varje bildataset, och utvärderades över flera omgångar av människor.

Den mänskliga poängsättningen baserades på tre kriterier: konsekvens till konversationens sammanhang; bild-relevans till den centrala begrepp som bilden försökte uttrycka; och den utsträckning till vilken bilden innehöll nyckelobjekt från målsatsen.

Med beaktande av det senare kriteriet kan det hävdas att schemat som forskarna bestämde sig för har i stor utsträckning diskvalificerat möjligheten för humoristiska, sarkastiska, abstrakta eller metafysiska möjligheter för den semantiska betydelsen av en bild som kan injiceras i en textkonversation.

Men detta är banbrytande arbete, och det måste börja någonstans, medan betydande ansträngningar görs på andra håll inom den naturliga språkbehandlingssektorn (NLP) för att karta instanser av sarkasm, bland andra mindre tangibla exempel på bild/text-relationen.

Testning

För att testa data-genereringsramverket använde forskarna en tre-delad återställningsmodell baserad på Facebooks 2020 Image-Chat-forskning. Modulen består av Resnext-101 som en bildkodare; Googles BERT för textkodaren; och en anpassad sammanslagningsmodul för dessa.

Systemet uppnådde 50,35 och 14,38 på den aktuella och nästa meningsprediktionsuppgiften, och förbättrade baseline för varje uppgift.

Senare fick två forskare i uppgift att skapa 100 multimodala dialoger genom att infoga bilder i konversationer manuellt, och körde systemet mot dessa “organiska” multimodala konversationer. Systemet kunde förutsäga aktuella och nästa tur-utbyten med hög medvetenhet om sammanhanget, även för dessa ad hoc-exempel.

Resultat av testningen för det koreanska multimodala dataset-genereringssystemet, som visar konsekvent hög korrelation mellan text-till-bild-likhet och mänsklig-baserad frågeskattning på samma data.