Umelá inteligencia

Učíme AI chápať a používať obrázky v dialógu

Aktualizované on Decembra 9, 2022

Výskumníci z Južnej Kórey vyvinuli súbor údajov, ktorý má pomôcť pri výskume umelej inteligencie porozumieť spôsobu, akým ľudia používajú obrázky v dialógu, a pomôcť modelom prirodzeného jazyka podieľať sa na tomto nedávnom vývoji ľudskej komunikácie.

papier, z KAIST v Daedeok Innopolis, poznamenáva, že výskum takýchto multimodálnych dialógových systémov bol za posledných desať rokov brzdený súbormi údajov a metodológiou zameranými na disciplíny, ktoré sú okrajové pre túto tému, ako napr. vizuálna odpoveď na otázku a popisovanie obrázkov.

V týchto starších prístupoch sú obrazy hodnotené mimo lexikálneho kontextu konverzácie, bez pochopenia spôsobu, akým je dialóg posilnený a rozvíjaný obrazovými odpoveďami, a bez schémy medzi doménami na dekódovanie príspevkov vizuálnych príspevkov do diskurzu.

Obrazy ako prvotriedne aspekty dialógu

Mnohé z vyššie uvedených prístupov boli doteraz iniciatívami alebo vývojom výskumného oddelenia AI spoločnosti Microsoft, ktoré v roku 2017 skúmal tému multimodálnych rozhovorov, ktoré sú Začatie namiesto voľného používania obrázkov ako komponentov dialógu.

Na riešenie nedostatku výskumných údajov vyvinuli juhokórejskí výskumníci súbor údajov 45,000 XNUMX prípadov dialógu zahŕňajúcich ad hoc použitie obrázkov bez toho, aby sa sústredili na vírusové „meme“ obrázky; ten druhý, hoci je oblasťou záujmu v oblasti jazykového výskumu, je pravdepodobne menej náročný, pretože význam vírusových mémov možno odvodiť jednoduchšie prostredníctvom tisícok kontextových použití na platformách sociálnych médií.

Rozvíjanie ilustrácií ako náhrada textu

S cieľom vyvinúť metodológiu pre bilaterálnu transliteráciu slovo/frázu>obrázok, juhokórejskí vedci vycvičili systém strojového učenia na nahradenie častí textovej konverzácie do sémanticky relevantného obrazového obsahu.

Architektúra kórejského systému na generovanie súboru údajov pre výskum multimodálneho dialógu. Zdroj: https://arxiv.org/pdf/2107.08685.pdf

Predspracovanie cieľových fráz zahŕňalo vymazanie stop slová ktoré by mohli brániť predikcii nasledujúcej sally v konverzácii a obmedzovanie výmeny nižšej kvality prostredníctvom kontextových podobných filtrov.

Na otestovanie užitočnosti súboru údajov výskumníci nastavili modul na predpovedanie ďalšieho „otočenia“ v dialógu, pričom zohľadnili kontext rozhovoru a príslušné obrázky.

Pri výskume sa používa GUI na hodnotenie ľudí.

Päť externých súborov údajov sa použilo ako základný materiál pre súbor údajov 45k (čo je k dispozícii na GitHub). Tri sú textové prvky: DailyDialog, ručne anotovaný viacotáčkový textový súbor z roku 2017; a Facebooku Empatické dialógy a PersonaChat, oba z roku 2018. Použité dva súbory údajov založené na obrázkoch boli MS-COCO a Flicker30k.

Páry obrázok/text – JSON schéma fráz v množine údajov, ktoré sú spojené s obrázkami (v tomto príklade) z databázy obrázkov COCO spoločnosti Microsoft.

Výmena textu za obrázok pre systém bola poháňaná vopred vyškolenými Visual Semantic Reasoning Network (VSRN), vyvinutý v roku 2019 z Northeastern University v Bostone. VSRN bolo nastavené tak, aby fungovalo na manuálne vopred vybratých frázach z prispievajúcich textových súborov údajov.

Stanovenie súdržnosti

Súdržnosť zdrojových súborov údajov sa stanovila vyvinutím šiestich kombinácií každého súboru údajov dialógu, korelovaných s prípadmi v každom súbore údajov obrázkov a vyhodnotených v niekoľkých kolách ľuďmi.

Ľudské bodovanie bolo založené na troch kritériách: konzistentnosť s kontextom výmeny; relevantnosť obrazu pre základný koncept, ktorý sa obraz snažil vyjadriť; a do akej miery obrázok obsahoval kľúčové objekty z cieľovej vety.

Vzhľadom na posledné uvedené kritériá by sa dalo tvrdiť, že schéma, pre ktorú sa výskumníci rozhodli, do značnej miery odmietla možnosť humorných, sarkastických, abstraktných alebo metafyzických možností pre sémantický význam obrazu, ktorý by sa mohol vložiť do textovej konverzácie.

Toto je však kľúčová práca a niekde sa musí začať, zatiaľ čo inde v sektore spracovania prirodzeného jazyka (NLP) sa vynakladá značné úsilie na mapovať príklady sarkazmu, medzi inými menej hmatateľnými príkladmi vzťahu obrázok/text.

testovanie

Na testovanie rámca generovania údajov výskumníci použili trojdielny model vyhľadávania založený na Facebooku 2020 Image-Chat výskumu. Modul obsahuje Resnext-101 ako kódovač obrázkov; Google BERTI pre kódovač textu; a vlastný fúzny modul pre nich.

Systém dosiahol 50.35 a 14.38 v aktuálnej a nasledujúcej úlohe predikcie viet, čím sa zlepšil v porovnaní so základnou líniou pre každú úlohu.

Neskôr boli dvaja výskumníci poverení vytvorením 100 multimodálnych dialógov manuálnym vložením obrázkov do konverzácií a spustením systému proti týmto „organickým“ multimodálnym konverzáciám. Systém bol schopný predpovedať súčasné a nasledujúce výmeny s vysokým vedomím kontextu aj pre tieto ad hoc príklady.

Výsledky testovania pre kórejský multimodálny systém generovania súborov údajov, ktoré odhaľujú trvalo vysokú koreláciu medzi podobnosťou textu a obrázku a skóre otázok založených na ľuďoch na rovnakých údajoch.