Inteligență artificială

Învățarea inteligenței artificiale să înțeleagă și să utilizeze imagini în dialog

Published July 21, 2021

Updated April 28, 2026

Martin Anderson

Cercetători din Coreea de Sud au dezvoltat un set de date destinat să ajute la cercetarea modului în care inteligența artificială înțelege modul în care oamenii utilizează imagini în dialog și să ajute modelele de limbaj natural să participe la acest dezvoltare recentă în comunicarea umană.

Articolul, de la KAIST de la Daedeok Innopolis, notează că cercetarea privind astfel de sisteme de dialog multi-modale în ultimii zece ani a fost împiedicată de seturile de date și metodologiile centrate pe discipline periferice subiectului, cum ar fi întrebări vizuale și titluri de imagine.

În aceste abordări mai vechi, imaginile sunt evaluate în afara contextului lexical al unei conversații, fără a înțelege modul în care dialogul este îmbunătățit și dezvoltat prin răspunsuri la imagini, și fără a avea un schema transversală pentru decodarea contribuțiilor vizuale la discurs.

Imagini ca facetă principală a dialogului

Multe dintre abordările menționate până acum au fost inițiative sau dezvoltări din partea brațului de cercetare AI al Microsoft, care în 2017 a examinat și subiectul conversațiilor multimodale care sunt începute de o imagine, și nu utilizate liber imagini ca componente ale dialogului.

Pentru a aborda lipsa de date de cercetare, cercetătorii coreeni au dezvoltat un set de date de 45.000 de instanțe de dialog care implică utilizarea ad-hoc a imaginilor, fără a se concentra pe imagini ‘meme’ virale; acestea, deși sunt o zonă de interes în cercetarea limbajului, sunt, probabil, mai puțin o provocare, deoarece sensul imaginilor ‘meme’ poate fi dedus mai ușor prin mii de utilizări în context pe platformele de social media.

Dezvoltarea ilustrațiilor ca substitut pentru text

Pentru a dezvolta o metodologie pentru transliterarea bilaterală cuvânt/frază > imagine, cercetătorii coreeni au instruit un sistem de învățare automată să înlocuiască părți ale unei conversații textuale cu conținut de imagine semantic relevant.

Arhitectura sistemului coreean pentru generarea unui set de date pentru cercetarea dialogului multimodal. Sursă: https://arxiv.org/pdf/2107.08685.pdf

Pre-procesarea frazelor țintă a implicat ștergerea cuvintelor de oprire care ar putea inhiba predicția următoarei fraze în conversație și tăierea schimburilor de calitate inferioară prin filtre de similaritate contextuală.

Pentru a testa utilitatea setului de date, cercetătorii au setat un modul pentru a prezice următoarea “rotire” în dialog, luând în considerare contextul conversației și imaginile implicate.

Interfața de evaluare umană utilizată în cercetare.

Cinci seturi de date externe au fost utilizate ca material de bază pentru setul de date de 45k (care este disponibil pe GitHub). Trei sunt elemente textuale: DailyDialog, un set text multi-turn manual annotat din 2017; și EmpatheticDialogues și PersonaChat, ambele din 2018. Cele două seturi de date cu imagini utilizate au fost MS-COCO și Flicker30k.

Perechi imagine/text – schema JSON a frazelor din setul de date, asociate cu imagini (în acest exemplu) din baza de date de imagini Microsoft COCO.

Înlocuirea textului cu imagine pentru sistem a fost alimentată de rețeaua pre-antrenată Visual Semantic Reasoning Network (VSRN), dezvoltată în 2019 la Universitatea Northeastern din Boston. VSRN a fost setată să funcționeze pe fraze pre-selecționate manual din seturile de date text.

Stabilirea coerenței

Coerența seturilor de date sursă a fost stabilită prin dezvoltarea a șase combinații ale fiecărui set de date de dialog, corelate cu instanțe din fiecare set de date cu imagini, și evaluate de-a lungul mai multor runde de către oameni.

Scorul uman a fost bazat pe trei criterii: consistența cu contextul schimbului; relevanța imaginii pentru conceptul central pe care imaginea încerca să-l exprime; și măsura în care imaginea conținea obiecte cheie din fraza țintă.

Luând în considerare ultimul criteriu, se poate argumenta că schema pe care cercetătorii au decis să o adopte a discontat în mare măsură posibilitatea unor posibilități umoristice, sarcastice, abstracte sau metafizice pentru sensul semantic al unei imagini care ar putea fi injectată într-o conversație text.

Cu toate acestea, aceasta este o lucrare seminală, și trebuie să înceapă de undeva, în timp ce se depun eforturi considerabile în altă parte în sectorul Procesării Limbajului Natural (NLP) pentru a cartografia instanțelor de sarcasm, printre alte exemple mai puțin tangibile ale relației imagine/text.

Testare

Pentru a testa cadrul de generare a datelor, cercetătorii au utilizat un model de recuperare în trei părți, bazat pe cercetarea Image-Chat a Facebook din 2020. Modulul este format din Resnext-101 ca encoder de imagine; BERT de la Google pentru encoderul de text; și un modul de fuziune personalizat pentru acestea.

Sistemul a obținut 50,35 și 14,38 la sarcina de predicție a propoziției actuale și următoare, îmbunătățind rezultatele de bază pentru fiecare sarcină.

Mai târziu, doi cercetători au fost însărcinați să creeze 100 de dialoguri multimodale prin inserarea de imagini în conversații manual, și să ruleze sistemul împotriva acestor “conversații multimodale organice”. Sistemul a fost capabil să prezică schimburile actuale și următoare cu o conștientizare ridicată a contextului, chiar și pentru aceste exemple ad-hoc.

Rezultatele testării pentru sistemul de generare a setului de date multimodal coreean, arătând o corelație ridicată și constantă între similaritatea imagine/text și scorurile întrebărilor bazate pe evaluarea umană pe aceleași date.