Kunstmatige intelligentie

Het onderwijzen van AI om beelden te begrijpen en te gebruiken in dialoog

Published July 21, 2021

Updated April 28, 2026

Martin Anderson

Onderzoekers uit Zuid-Korea hebben een dataset ontwikkeld die is ontworpen om onderzoek te ondersteunen naar het begrip van AI voor de manier waarop mensen beelden in dialoog gebruiken, en om natuurlijke taalmodellen te helpen deelnemen aan deze zeer recente ontwikkeling in menselijke communicatie.

De paper, van KAIST in Daedeok Innopolis, merkt op dat onderzoek naar dergelijke multi-modale dialoogsystemen in de afgelopen tien jaar is gehinderd door datasets en methodologieën die zijn gericht op disciplines die perifeer zijn aan het onderwerp, zoals visuele vraagbeantwoording en beeldonderschriften.

In deze oudere benaderingen worden beelden geëvalueerd buiten de lexicale context van een conversatie, zonder enig begrip van de manier waarop de dialoog wordt versterkt en ontwikkeld door beeldreacties, en zonder cross-domeinschema voor het decoderen van de bijdragen van visuele bijdragen aan de discours.

Beelden als eerste klas facetten van dialoog

Veel van de bovengenoemde benaderingen tot nu toe zijn initiatieven of ontwikkelingen van Microsoft’s AI-onderzoeksarm, die in 2017 ook onderzocht het onderwerp van multimodale conversaties die worden gestart door een beeld, in plaats van vrijwillig beelden te gebruiken als dialoogcomponenten.

Om het tekort aan onderzoeksgegevens aan te pakken, hebben de Zuid-Koreaanse onderzoekers een dataset van 45.000 dialooginstanties ontwikkeld met het ad hoc-gebruik van beelden, zonder te focussen op virale ‘meme’-beelden; het laatste, hoewel een interessant gebied in taalonderzoek, is mogelijk minder een uitdaging, omdat de betekenis van virale memes gemakkelijker kan worden afgeleid door duizenden in-context-gebruiken op sociale media-platforms.

Het ontwikkelen van illustraties als vervanging voor tekst

Om een methodologie te ontwikkelen voor woord/zin>beeld-bilaterale transliteratie, hebben de Zuid-Koreaanse onderzoekers een machine learning-systeem getraind om delen van een tekstgebaseerde conversatie te vervangen door semantisch relevante beeldinhoud.

Architectuur van het Koreaanse systeem voor het genereren van een dataset voor multimodale dialoogonderzoek. Bron: https://arxiv.org/pdf/2107.08685.pdf

Het voorbewerken van de doelzinnen omvatte het verwijderen van stopwoorden die de voorspelling van de volgende zin in de conversatie zouden kunnen belemmeren, en het snoeien van inferieure kwaliteituitwisselingen via contextuele overeenkomstfilters.

Om de bruikbaarheid van de dataset te testen, hebben de onderzoekers een module ingesteld om de volgende ‘beurt’ in de dialoog te voorspellen, waarbij rekening wordt gehouden met de context van de conversatie en de betrokken beelden.

Het door de mens geëvalueerde GUI dat in het onderzoek wordt gebruikt.

Vijf externe datasets werden gebruikt als basis voor de 45k-dataset (die beschikbaar is op GitHub). Drie zijn tekstgebaseerde elementen: DailyDialog, een handmatig geannoteerde multi-turn tekstgebaseerde set uit 2017; en Facebook’s EmpatheticDialogues en PersonaChat, beide uit 2018. De twee beeldgebaseerde datasets die werden gebruikt, waren MS-COCO en Flicker30k.

Beeld/tekst-paren – JSON-schema van zinnen in de dataset, gekoppeld aan beelden (in dit voorbeeld) uit Microsoft’s COCO-beelddatabase.

Tekst-naar-beeld-vervanging voor het systeem werd aangedreven door het vooraf getrainde Visuele Semantische Redeneringsnetwerk (VSRN), ontwikkeld in 2019 aan de Northeastern University in Boston. VSRN werd ingesteld om te werken op handmatig geselecteerde zinnen uit de bijdragende tekstdatasets.

Coherentie vaststellen

De coherentie van de bron-datasets werd vastgesteld door zes combinaties van elke dialoogdataset te ontwikkelen, gerelateerd aan instanties in elke beeldataset, en deze te evalueren over meerdere ronden door mensen.

De menselijke scoring was gebaseerd op drie criteria: consistentie met de context van de uitwisseling; beeldrelevantie voor het centrale concept dat het beeld probeerde uit te drukken; en de mate waarin het beeld sleutelobjecten uit de doelzin bevatte.

Als men het laatste criterium in overweging neemt, kan men argumenteren dat het schema dat de onderzoekers hebben gekozen, grotendeels de mogelijkheid heeft uitgesloten van humoristische, sarcastische, abstracte of metafysische mogelijkheden voor de semantische betekenis van een beeld dat in een tekstconversatie kan worden geïnjecteerd.

Het is echter baanbrekend werk, en het moet ergens beginnen, terwijl aanzienlijke inspanningen elders in de sector voor Natuurlijke Taalverwerking (NLP) worden geleverd om voorbeelden van sarcasme in kaart te brengen, onder andere minder tastbare voorbeelden van de beeld/tekst-relatie.

Testen

Om het datageneratiekader te testen, hebben de onderzoekers een drievoudig opvraagmodel gebruikt op basis van Facebook’s 2020 Image-Chat-onderzoek. Het module bestaat uit Resnext-101 als beeldencoder; Google’s BERT voor de tekstencoder; en een aangepaste fusiemodule voor deze.

Het systeem behaalde 50,35 en 14,38 op de huidige en volgende zinvoorspellingsopdracht, waarmee het de basislijn voor elke opdracht verbeterde.

Later kregen twee onderzoekers de opdracht om 100 multimodale dialogen te creëren door beelden handmatig in conversaties in te voegen en het systeem tegen deze ‘organische’ multimodale conversaties te laten werken. Het systeem kon de huidige en volgende beurtuitwisselingen voorspellen met een hoog bewustzijn van de context, zelfs voor deze ad hoc-voorbeelden.

Resultaten van de test voor het Koreaanse multimodale datasetgeneratiesysteem, waaruit blijkt dat er een consistent hoge correlatie bestaat tussen tekst-beeldovereenkomst en mensgebaseerde vraagscores op dezelfde gegevens.