Tekoäly

Opettaminen AI: n ymmärtämään ja käyttämään kuvia dialogissa

Published July 21, 2021

Updated April 5, 2026

Martin Anderson

Etelä-Korean tutkijat ovat kehittäneet tietokannan, joka on suunniteltu avustamaan tutkimusta AI: n ymmärtämisestä siitä, miten ihmiset käyttävät kuvia dialogissa, ja auttamaan luonnollisen kielen malleja osallistumaan tähän hyvin uuteen kehitykseen ihmisten viestinnässä.

Tutkimus, KAIST: sta Daedeok Innopolisista, toteaa, että tutkimus tällaisista monimodaalisista dialogijärjestelmistä viimeisen kymmenen vuoden aikana on ollut vaikeutunut tietokannoilla ja menetelmillä, jotka ovat keskittyneet aiheen laidoilla oleviin tieteisiin, kuten visuaalinen kysymysvastaus ja kuvauskuvaukset.

Näissä vanhemmissa lähestymistavoissa kuvat arvioidaan sanastollisen kontekstin ulkopuolella, ilman ymmärrystä siitä, miten dialogi kehittyy ja paranee kuva-vastauksilla, ja ilman ristiriitoja dekoodauksen skeemaa visuaalisten avustusten merkityksen määrittämiseksi.

Kuvat ensisijaisina osina dialogissa

Monet edellä mainituista lähestymistavoista ovat olleet aloitteita tai kehitystä Microsoftin AI-tutkimuksen osalta, joka vuonna 2017 tutki myös monimodaalisten keskustelujen aiheita, jotka alkavat kuvasta, ei vapaaehtoisesti käytä kuvia dialogin osina.

Vastatakseen tutkimusdatan puutteeseen, Etelä-Korean tutkijat ovat kehittäneet tietokannan 45 000 dialogin instanssista, jotka liittyvät kuvien ad hoc -käyttöön, ilman keskittymistä viraalisiin ‘meemi’-kuviin; jälkimmäinen, vaikka se on kiinnostava aihe kielen tutkimuksessa, on väittävästi vähemmän haasteellinen, koska viraalisten meemien merkitys voidaan johtaa helpommin tuhansien kontekstien kautta sosiaalisen median alustoilla.

Kuvien kehittäminen tekstin korvikkeeksi

Jotta voidaan kehittää menetelmä sana / lause > kuva bilateraalille translitteroinnille, Etelä-Korean tutkijat ovat kouluttaneet koneoppimisjärjestelmän korvaamaan osia tekstipohjaisesta keskustelusta semanttisesti merkityksellisiin kuvaan.

Korean järjestelmän arkkitehtuuri monimodaalisen dialogin tietokannan luomiseksi. Lähde: https://arxiv.org/pdf/2107.08685.pdf

Kohdefraasien esikäsittelyssä poistettiin stop-sanat, jotka voivat estää seuraavan sallyn ennustamisen keskustelussa, ja heikkojen laatuisten vaihtoehtojen leikkaaminen kontekstuaalisten samankaltaisuuden suodattimien avulla.

Tietokannan hyödyllisyyden testaamiseksi tutkijat asettivat moduulin ennustamaan seuraavan “käännöksen” dialogissa, ottaen huomioon keskustelun kontekstin ja mukana olevat kuvat.

Ihmisen arviointi-GRAFIIKA, jota tutkimuksessa käytettiin.

Viisi ulkoista tietokantaa käytettiin 45k-tietokannan perusmateriaalina (joka on saatavilla GitHubissa). Kolme ovat tekstipohjaisia elementtejä: DailyDialog, manuaalisesti annotoitu monimutkainen tekstipohjainen joukko vuodelta 2017; ja Facebookin EmpatheticDialogues ja PersonaChat, molemmat vuodelta 2018. Kaksi kuvapohjaista tietokantaa, joita käytettiin, olivat MS-COCO ja Flicker30k.

Kuva / teksti -parit – JSON-skeema lauseista tietokannassa, liittyvät kuvat (tässä esimerkissä) Microsoftin COCO-kuvauskannasta.

Teksti-kuva-korvaus järjestelmälle oli voimassa esikoulutettu Visuaalinen Semanttinen Päättelyverkko (VSRN), kehitetty vuonna 2019 Northeastern Universityssa Bostonissa. VSRN asetettiin toimimaan manuaalisesti valituilla fraaseilla tekstipohjaisista tietokannoista.

Yhdenmukaisuuden perustaminen

Lähdetietokantojen yhdenmukaisuus perustettiin kehittämällä kuusi yhdistelmää kustakin dialogitietokannasta, korreloituun kunkin kuvatietokannan instansseihin, ja arvioitu useita kierroksia ihmisillä.

Martin Anderson

Kirjailija tekoälystä, alan erikoisosaaja ihmiskuvien synteesissä. Entinen tutkimussisällön johtaja Metaphysic.ai:lla.
Henkilökohtainen sivu: martinanderson.ai
Ota yhteyttä: [email protected]

Unite.AI

Opettaminen AI: n ymmärtämään ja käyttämään kuvia dialogissa

Kuvat ensisijaisina osina dialogissa

Kuvien kehittäminen tekstin korvikkeeksi

Yhdenmukaisuuden perustaminen

You may like