Tekoäly
Tekoälyn opettaminen ymmärtämään ja käyttämään kuvia dialogissa

Eteläkorealaiset tutkijat ovat kehittäneet aineiston, jonka tarkoituksena on auttaa tutkimaan tekoälyn ymmärrystä siitä, miten ihmiset käyttävät kuvia vuoropuhelussa, ja auttaa luonnollisen kielen malleja osallistumaan tähän hyvin viimeaikaiseen kehitykseen ihmisen viestinnässä.
- paperi, Daedeok Innopoliksen KAISTista, toteaa, että tällaisten multimodaalisten dialogijärjestelmien tutkimusta viimeisen kymmenen vuoden aikana ovat häirinneet tietojoukot ja menetelmät, jotka keskittyvät aiheeseen liittyviin syrjäisiin tieteenaloihin, kuten esim. visuaalinen vastaus kysymykseen ja kuvan tekstitys.
Näissä vanhemmissa lähestymistavoissa kuvia arvioidaan keskustelun leksikaalisesta kontekstista ilman ymmärrystä siitä, miten kuvavastaukset tehostavat ja kehittävät vuoropuhelua, eikä myöskään verkkotunnusten välistä skeemaa visuaalisten panosten keskusteluun dekoodaamiseksi.
Kuvat vuoropuhelun ensiluokkaisina puolina
Monet edellä mainituista lähestymistavoista ovat tähän mennessä olleet Microsoftin tekoälytutkimusosaston aloitteita tai kehitystyötä, joka vuonna 2017 myös tarkasteltiin multimodaalisten keskustelujen aihe alkaneet kuvan avulla sen sijaan, että käyttäisit kuvia vapaasti dialogikomponentteina.
Korjatakseen tutkimustiedon puutteen eteläkorealaiset tutkijat ovat kehittäneet tietojoukon 45,000 XNUMX dialogitapauksesta, joihin liittyy kuvien tapauskohtaista käyttöä keskittymättä viraaliset 'meemi'-kuvat; jälkimmäinen, vaikka kiinnostaakin kielentutkimusta, on luultavasti vähemmän haasteellinen, koska virusmeemien merkitys voidaan päätellä helpommin tuhansien kontekstin sisäisten käyttöjen avulla sosiaalisen median alustoilla.
Kuvien kehittäminen tekstin korvikkeena
Kehittääkseen metodologian sanan/lauseen>kuvan kahdenväliseen translitterointiin eteläkorealaiset tutkijat ovat kouluttaneet koneoppimisjärjestelmän korvaamaan tekstipohjaisen keskustelun osia semanttisesti relevantilla kuvasisällöllä.

Korealaisen järjestelmän arkkitehtuuri tietojoukon luomiseksi multimodaalista dialogitutkimusta varten. Lähde: https://arxiv.org/pdf/2107.08685.pdf
Kohdelauseiden esikäsittelyyn sisältyi sanan poistaminen lopeta sanat jotka saattavat estää seuraavan sallyn ennustamista keskustelussa ja huonolaatuisten vaihtojen karsimista kontekstuaalisten samankaltaisuussuodattimien kautta.
Aineistoa testattiin siten, että tutkijat asettivat moduulin ennustamaan seuraavan "käänteen" dialogissa ottaen huomioon keskustelun kontekstin ja mukana olevat kuvat.

Tutkimuksessa käytetty ihmisen arvioinnin GUI.
Viittä ulkoista tietojoukkoa käytettiin pohjamateriaalina 45 XNUMX tietojoukolle (joka on saatavilla GitHubissa). Kolme on tekstipohjaisia elementtejä: DailyDialog, manuaalisesti kommentoitu usean käännöksen tekstiin perustuva sarja vuodelta 2017; ja Facebookin Empaattiset dialogit ja PersonaChat, molemmat vuodelta 2018. Kaksi käytettyä kuvapohjaista tietojoukkoa olivat MS-COCO ja Vilkkuu 30k.

Kuva-/tekstiparit – JSON-skeema tietojoukon lausekkeista, jotka liittyvät Microsoftin COCO-kuvatietokannan kuviin (tässä esimerkissä).
Tekstistä kuvaksi korvaaminen järjestelmään sai virtansa esikoulutetuista Visual Semantic Reasoning Network (VSRN), kehitettiin vuonna 2019 Bostonin Northeastern Universitystä. VSRN määritettiin toimimaan manuaalisesti esivalittujen lauseiden kanssa tekstitietojoukoista.
Johdonmukaisuuden luominen
Lähdeaineistojen johdonmukaisuus määritettiin kehittämällä kuusi yhdistelmää kustakin dialogitietojoukosta, jotka korreloivat kunkin kuvaaineiston tapauksiin ja arvioitiin useilla ihmisillä.
Inhimillinen pisteytys perustui kolmeen kriteeriin: johdonmukaisuus vaihdon kontekstiin; kuvan merkitys sen ydinkonseptin kannalta, jota kuva yritti ilmaista; ja missä määrin kuva sisälsi kohdelauseen avainobjekteja.
Jälkimmäiset kriteerit huomioon ottaen voitaisiin väittää, että tutkijoiden valitsema kaava on suurelta osin sulkenut pois mahdollisuuden humoristisiin, sarkastisiin, abstrakteihin tai metafyysisiin mahdollisuuksiin kuvan semanttiselle merkitykselle, joka voidaan ruiskuttaa tekstikeskusteluun.
Tämä on kuitenkin uraauurtavaa työtä, ja sen on aloitettava jostain, kun taas muualla luonnollisen kielen käsittelyn (NLP) alalla tehdään huomattavia ponnisteluja kartta sarkasmin tapaukset, muiden vähemmän konkreettisten esimerkkien joukossa kuvan ja tekstin suhteesta.
Testaus
Tiedonluontikehyksen testaamiseksi tutkijat käyttivät kolmiosaista hakumallia, joka perustui Facebookin vuoden 2020 malliin. Kuva-chat tutkimusta. Moduuli sisältää Seuraava-101 kuvankooderina; Googlen BERTI tekstikooderille; ja mukautettu fuusiomoduuli näitä varten.
Järjestelmä saavutti arvot 50.35 ja 14.38 nykyisessä ja seuraavan virkkeen ennustetehtävässä, parantaen kunkin tehtävän lähtötasoa.
Myöhemmin kahdelle tutkijalle annettiin tehtäväksi luoda 100 multimodaalista dialogia lisäämällä kuvia keskusteluihin manuaalisesti ja ajamalla järjestelmää näitä "orgaanisia" multimodaalisia keskusteluja vasten. Järjestelmä pystyi ennustamaan meneillään olevia ja seuraavia keskusteluja kontekstitietoisesti jopa näissä satunnaisissa esimerkeissä.

Korean multimodaalisen tietojoukon luomisjärjestelmän testauksen tulokset paljastavat jatkuvasti korkean korrelaation tekstin ja kuvan välisen samankaltaisuuden ja ihmispohjaisten kysymyspisteiden välillä samoilla tiedoilla.