Kunstig intelligens

Undervisning af AI i at forstå og bruge billeder i dialog

Published July 21, 2021

Updated April 28, 2026

Martin Anderson

Forskere fra Sydkorea har udviklet en dataset, der er designet til at støtte forskning i AI’s forståelse af, hvordan mennesker bruger billeder i dialog, og til at hjælpe naturlige sprogmodeller til at deltage i denne meget nye udvikling i menneskelig kommunikation.

Den artikel, fra KAIST ved Daedeok Innopolis, bemærker, at forskning i sådanne multi-modale dialogsystemer over de sidste ti år har været hæmmet af datasets og metoder, der fokuserer på discipliner, der er perifere i forhold til emnet, såsom visuel spørgsmål besvarelse og billede-underskrift.

I disse ældre tilgange evalueres billeder uden for den leksikale kontekst af en samtale, uden at forstå, hvordan dialogen udvikles og forbedres af billedsvar, og uden en tværfaglig skema for at afkode bidragene fra visuelle bidrag til diskursen.

Billeder som førsteklasses aspekter af dialog

Mange af de ovennævnte tilgange hidtil har været initiativer eller udviklinger fra Microsofts AI-forskningsafdeling, der i 2017 også undersøgte emnet for multimodale samtaler, der startes af et billede, snarere end at frit bruge billeder som dialogkomponenter.

For at imødekomme manglen på forskningsdata har de sydkoreanske forskere udviklet en dataset på 45.000 dialogeksempler, der involverer den ad hoc-brug af billeder, uden at fokusere på viruslignende ‘meme’-billeder; sidstnævnte, selvom det er et område af interesse i sprogforskning, er sandsynligvis mindre udfordrende, fordi betydningen af viruslignende memes kan afledes mere let gennem tusinder af kontekstbrug på sociale medieplatforme.

Udvikling af illustrationer som erstatning for tekst

For at udvikle en metode til ord/frase> billedlig bilateral translitteration har de sydkoreanske forskere trænet et maskinlæringssystem til at erstatte dele af en tekstbaseret samtale med semantisk relevant billedindhold.

Arkitektur for det koreanske system til generering af en dataset for multimodal dialogforskning. Kilde: https://arxiv.org/pdf/2107.08685.pdf

Forbearbejdning af målfraserne indebar sletning af stop-ord, der kunne hæmme forudsigelsen af den følgende sally i samtalen, og beskæring af lavkvalitetsudvekslinger via kontekstlige ligningsfiltre.

For at teste datasettets nytte satte forskerne en modul til at forudsige den næste ‘runde’ i samtalen, mens de tog hensyn til samtalekonteksten og de involverede billeder.

Det menneskelige vurderings-GUI, der blev brugt i forskningen.

Fem eksterne datasets blev brugt som grundmateriale til 45k-datasettet (der er tilgængelig på GitHub). Tre er tekstbaserede elementer: DailyDialog, en manuelt annoteret multi-turn tekstbaseret sæt fra 2017; og Facebooks EmpatheticDialogues og PersonaChat, begge fra 2018. De to billedbaserede datasets, der blev brugt, var MS-COCO og Flicker30k.

Billede/tekst-par – JSON-skema af fraser i datasettet, associeret med billeder (i dette eksempel) fra Microsofts COCO-billedatabase.

Tekst til billed-erstatning for systemet blev drevet af den forudtrænede Visuel Semantisk Ræsoneringsnetværk (VSRN), udviklet i 2019 på Northeastern University i Boston. VSRN blev sat til at fungere på manuelt forudvalgte fraser fra de bidragende tekstdatasets.

Etablering af kohærens

Kohærens af kilde-datasets blev etableret ved at udvikle seks kombinationer af hver dialogdataset, korreleret til eksempler i hver billed-dataset, og vurderet over flere runder af mennesker.

Den menneskelige scoring var baseret på tre kriterier: konsistens i forhold til samtalekonteksten; billed-relevans i forhold til den centrale idé, billedet forsøgte at udtrykke; og udstrækningen, i hvilken billedet indeholdt nøgleobjekter fra målsætningen.

Under hensyn til det sidste kriterium kan det argumenteres for, at skemaet, forskerne besluttede sig for, har stort set udelukket muligheden for humoristiske, sarkastiske, abstrakte eller metafysiske muligheder for den semantiske betydning af et billede, der kan indsættes i en tekst-samtale.

Men dette er grundlæggende arbejde, og det skal starte et sted, mens betydelige bestræbelser udføres andre steder i den naturlige sprogbehandling (NLP)-sektor for at kortlægge eksempler på sarkasme, blandt andet mindre tangibelt eksempler på billed/tekst-forholdet.

Test

For at teste data-genereringsrammen brugte forskerne en tre-delt hentingsmodel baseret på Facebooks 2020 Image-Chat-forskning. Modulen består af Resnext-101 som billed-encoder; Googles BERT til tekst-encoder; og en brugerdefineret fusionsmodul til disse.

Systemet opnåede 50,35 og 14,38 på den aktuelle og næste sætning forudsigelse-opgave, og forbedrede grundlinjen for hver opgave.

Senere blev to forskere bedt om at oprette 100 multimodale dialoger ved at indsætte billeder i samtaler manuelt, og køre systemet mod disse ‘organiske’ multimodale samtaler. Systemet kunne forudsige aktuelle og næste-runde-udvekslinger med høj bevidsthed om konteksten, selv for disse ad hoc-eksempler.

Resultater af testen for det koreanske multimodale dataset-genereringssystem, der viser en konsekvent høj korrelation mellem tekst-til-billede-lighed og menneskebaserede spørgeskår på samme data.