Kunstig intelligens

Å lære AI å forstå og bruke bilder i dialog

Published July 21, 2021

Updated April 28, 2026

Martin Anderson

Forskere fra Sør-Korea har utviklet en datasett som er designet for å hjelpe med forskning på AI-forståelse av måten mennesker bruker bilder i dialog, og for å hjelpe naturlige språkmodeller til å delta i denne svært nye utviklingen i menneskelig kommunikasjon.

Paperet, fra KAIST ved Daedeok Innopolis, bemerker at forskning på slike multi-modale dialogsystemer over de siste ti årene har blitt hindret av datasett og metoder som fokuserer på disipliner som er perifere til emnet, som visuell spørsmål besvaring og bildeforklaring.

I disse eldre tilnærmingene blir bildene evaluert utenfor den leksikale konteksten av en samtale, uten å forstå hvordan dialogen utvikles og forbedres av bilde-respons, og uten en tverr-domene-skjema for å avkode bidragene fra visuelle bidrag til diskursen.

Bilder som førsteklasses-facetter av dialog

Mange av de ovennevnte tilnærmingene til dags dato har vært initiativer eller utviklinger fra Microsofts AI-forskningsarm, som i 2017 også undersøkte emnet multimodale samtaler som begynner med et bilde, i stedet for å fritt bruke bilder som dialogkomponenter.

For å løse mangelen på forskningsdata, har de sørkoreanske forskerne utviklet en datasett på 45 000 dialoginstanser som involverer ad hoc-bruk av bilder, uten å konsentrere seg om viruslignende ‘meme’-bilder; sistnevnte, selv om det er et område av interesse i språkforskning, er kanskje mindre utfordrende, fordi betydningen av viruslignende memes kan sluttes mer lett gjennom tusenvis av kontekstbruk på sosiale medieplattformer.

Utvikling av illustrasjoner som erstatning for tekst

For å utvikle en metode for ord/frase>bildeforklaring, har de sørkoreanske forskerne trent et maskinlæringssystem til å erstatte deler av en tekstbasert samtale med semantisk relevant bildeinnhold.

Arkitektur for det koreanske systemet for å generere en datasett for multimodal dialogforskning. Kilde: https://arxiv.org/pdf/2107.08685.pdf

Forbearbeiding av målsetningene innebar sletting av stoppord som kunne hindre forutsigelse av den påfølgende sally i samtalen, og beskjæring av lavkvalitetsbytte via kontekstuelle likhetsfilter.

For å teste nytten av datasetten, satte forskerne opp en modul for å forutsi neste “turn” i samtalen mens de tok hensyn til konteksten av samtalen og bildene som var involvert.

Det menneskelige vurderings-GUI som ble brukt i forskningen.

Fem eksterne datasett ble brukt som basis for 45k-datasetten (som er tilgjengelig på GitHub). Tre er tekstbaserte elementer: DailyDialog, en manuelt annotert multi-turn tekstbasert sett fra 2017; og Facebooks EmpatheticDialogues og PersonaChat, begge fra 2018. De to bildebaserte datasettene som ble brukt var MS-COCO og Flicker30k.

Bilde/tekst-par – JSON-skjema for fraser i datasetten, assosiert med bilder (i dette eksemplet) fra Microsofts COCO-bildebasis.

Tekst-til-bilde-erstatning for systemet ble drevet av det forhåndstrænte Visuell Semantisk Resonansnettverk (VSRN), utviklet i 2019 ved Northeastern University i Boston. VSRN ble satt til å fungere på manuelt forhåndvalgte fraser fra de bidragende tekstdatasettene.

Etablering av kohens

Kohens av kilde-datasettene ble etablert ved å utvikle seks kombinasjoner av hver dialogdatasett, korrelert til instanser i hver bilde-datasett, og evaluert over flere runder av mennesker.

Den menneskelige scoringen var basert på tre kriterier: konsistens til konteksten av byttet; bilde-relevans til det sentrale konseptet bildet forsøkte å uttrykke; og omfanget av hvilken grad bildet inneholdt nøkkel-objekter fra målsetningen.

Ved å vurdere sistnevnte kriterium, kan det hevdes at skjemaet forskerne bestemte seg for å bruke, har i stor grad diskvalifisert muligheten for humoristiske, sarkastiske, abstrakte eller metafysiske muligheter for den semantiske betydningen av et bilde som kan injiseres i en tekst-samtale.

Men dette er banebrytende arbeid, og det må starte et sted, mens betydelige anstrengelser blir gjort andre steder i den naturlige språkbehandlings-sektoren (NLP) for å karte instanser av sarkasme, blant andre mindre tangibile eksempler på bildetekst-forholdet.

Testing

For å teste data-genereringsrammen, brukte forskerne en tre-delt gjenvinning-modell basert på Facebooks 2020 Image-Chat-forskning. Modulen består av Resnext-101 som bilde-encoder; Googles BERT for tekst-encoder; og en tilpasset fusjonsmodul for disse.

Systemet oppnådde 50,35 og 14,38 på den nåværende og neste setningens forutsigelse-oppgave, og forbedret grunnlinjen for hver oppgave.

Senere ble to forskere bedt om å lage 100 multimodale dialoger ved å sette inn bilder i samtaler manuelt, og kjøre systemet mot disse ‘organiske’ multimodale samtaler. Systemet var i stand til å forutsi nåværende og neste-omgangsbytte med høy kontekst-bevissthet, selv for disse ad hoc-eksemplene.

Resultater av testingen for det koreanske multimodale datasett-genererings-systemet, som viser konsistent høy korrelasjon mellom tekst-til-bilde-lignhet og menneske-basert spørsmål-poeng på samme data.