Kunstig intelligens
Å lære AI å forstå og bruke bilder i dialog

Forskere fra Sør-Korea har utviklet en datasett som er designet for å hjelpe med forskning på AI-forståelse av måten mennesker bruker bilder i dialog, og for å hjelpe naturlige språkmodeller til å delta i denne svært nye utviklingen i menneskelig kommunikasjon.
Paperet, fra KAIST ved Daedeok Innopolis, bemerker at forskning på slike multi-modale dialogsystemer over de siste ti årene har blitt hindret av datasett og metoder som fokuserer på disipliner som er perifere til emnet, som visuell spørsmål besvaring og bildeforklaring.
I disse eldre tilnærmingene blir bildene evaluert utenfor den leksikale konteksten av en samtale, uten å forstå hvordan dialogen utvikles og forbedres av bilde-respons, og uten en tverr-domene-skjema for å avkode bidragene fra visuelle bidrag til diskursen.
Bilder som førsteklasses-facetter av dialog
Mange av de ovennevnte tilnærmingene til dags dato har vært initiativer eller utviklinger fra Microsofts AI-forskningsarm, som i 2017 også undersøkte emnet multimodale samtaler som begynner med et bilde, i stedet for å fritt bruke bilder som dialogkomponenter.
For å løse mangelen på forskningsdata, har de sørkoreanske forskerne utviklet en datasett på 45 000 dialoginstanser som involverer ad hoc-bruk av bilder, uten å konsentrere seg om viruslignende ‘meme’-bilder; sistnevnte, selv om det er et område av interesse i språkforskning, er kanskje mindre utfordrende, fordi betydningen av viruslignende memes kan sluttes mer lett gjennom tusenvis av kontekstbruk på sosiale medieplattformer.
Utvikling av illustrasjoner som erstatning for tekst
For å utvikle en metode for ord/frase>bildeforklaring, har de sørkoreanske forskerne trent et maskinlæringssystem til å erstatte deler av en tekstbasert samtale med semantisk relevant bildeinnhold.

Arkitektur for det koreanske systemet for å generere en datasett for multimodal dialogforskning. Kilde: https://arxiv.org/pdf/2107.08685.pdf
Forbearbeiding av målsetningene innebar sletting av stoppord som kunne hindre forutsigelse av den påfølgende sally i samtalen, og beskjæring av lavkvalitetsbytte via kontekstuelle likhetsfilter.
For å teste nytten av datasetten, satte forskerne opp en modul for å forutsi neste “turn” i samtalen mens de tok hensyn til konteksten av samtalen og bildene som var involvert.

Det menneskelige vurderings-GUI som ble brukt i forskningen.
Fem eksterne datasett ble brukt som basis for 45k-datasetten (som er tilgjengelig på GitHub). Tre er tekstbaserte elementer: DailyDialog, en manuelt annotert multi-turn tekstbasert sett fra 2017; og Facebooks EmpatheticDialogues og PersonaChat, begge fra 2018. De to bildebaserte datasettene som ble brukt var MS-COCO og Flicker30k.

Bilde/tekst-par – JSON-skjema for fraser i datasetten, assosiert med bilder (i dette eksemplet) fra Microsofts COCO-bildebasis.
Tekst-til-bilde-erstatning for systemet ble drevet av det forhåndstrænte Visuell Semantisk Resonansnettverk (VSRN), utviklet i 2019 ved Northeastern University i Boston. VSRN ble satt til å fungere på manuelt forhåndvalgte fraser fra de bidragende tekstdatasettene.
Etablering av kohens
Kohens av kilde-datasettene ble etablert ved å utvikle seks kombinasjoner av hver dialogdatasett, korrelert til instanser i hver bilde-datasett, og evaluert over flere runder av mennesker.
Den menneskelige scoringen var basert på tre kriterier: konsistens til konteksten av byttet; bilde-relevans til det sentrale konseptet bildet forsøkte å uttrykke; og omfanget av hvilken grad bildet inneholdt nøkkel-objekter fra målsetningen.
Ved å vurdere sistnevnte kriterium, kan det hevdes at skjemaet forskerne bestemte seg for å bruke, har i stor grad diskvalifisert muligheten for humoristiske, sarkastiske, abstrakte eller metafysiske muligheter for den semantiske betydningen av et bilde som kan injiseres i en tekst-samtale.
Men dette er banebrytende arbeid, og det må starte et sted, mens betydelige anstrengelser blir gjort andre steder i den naturlige språkbehandlings-sektoren (NLP) for å karte instanser av sarkasme, blant andre mindre tangibile eksempler på bildetekst-forholdet.
Testing
For å teste data-genereringsrammen, brukte forskerne en tre-delt gjenvinning-modell basert på Facebooks 2020 Image-Chat-forskning. Modulen består av Resnext-101 som bilde-encoder; Googles BERT for tekst-encoder; og en tilpasset fusjonsmodul for disse.
Systemet oppnådde 50,35 og 14,38 på den nåværende og neste setningens forutsigelse-oppgave, og forbedret grunnlinjen for hver oppgave.
Senere ble to forskere bedt om å lage 100 multimodale dialoger ved å sette inn bilder i samtaler manuelt, og kjøre systemet mot disse ‘organiske’ multimodale samtaler. Systemet var i stand til å forutsi nåværende og neste-omgangsbytte med høy kontekst-bevissthet, selv for disse ad hoc-eksemplene.













