stub Tagħlim lill-AI biex Tifhem u Uża Immaġni fid-Djalogu - Unite.AI
Kuntatt magħna

Intelliġenza Artifiċjali

Ngħallmu l-AI biex Jifhmu u Uża Immaġni fid-Djalogu

mm
Aġġornata on

Riċerkaturi mill-Korea t'Isfel żviluppaw dataset iddisinjat biex jgħin ir-riċerka fil-fehim tal-AI tal-mod kif il-bnedmin jużaw l-immaġini fid-djalogu, u biex jgħinu lill-mudelli tal-lingwa naturali biex jipparteċipaw f'dan l-iżvilupp riċenti ħafna fil-komunikazzjonijiet tal-bniedem.

il karta, minn KAIST f'Daedeok Innopolis, jinnota li r-riċerka f'tali sistemi ta' djalogu multi-modali matul l-aħħar għaxar snin kienet imxekkla minn datasets u metodoloġiji li jiffokaw fuq dixxiplini li huma periferali għas-suġġett, bħal tweġiba viżwali mistoqsija u, titlu tal-immaġni.

F'dawn l-approċċi eqdem, l-immaġini huma evalwati barra mill-kuntest lessiku ta 'konversazzjoni, mingħajr l-ebda fehim tal-mod li d-djalogu huwa msaħħaħ u żviluppat permezz ta' tweġibiet ta 'l-immaġni, u l-ebda skema trans-dominju għad-dekodifikazzjoni tal-kontribuzzjonijiet tal-kontribuzzjonijiet viżwali għad-diskors.

Stampi bħala Fatti ta' Djalogu ta' l-Ewwel Klassi

Ħafna mill-approċċi msemmija hawn fuq sal-lum kienu inizjattivi jew żviluppi mill-fergħa tar-riċerka tal-IA ta’ Microsoft, li fl-2017 wkoll eżaminati is-suġġett ta 'konversazzjonijiet multimodali li huma bdew minn immaġini, aktar milli jużaw immaġini liberament bħala komponenti tad-djalogu.

Biex jindirizzaw in-nuqqas fid-dejta tar-riċerka, ir-riċerkaturi tal-Korea t'Isfel żviluppaw sett ta' dejta ta' 45,000 każ ta' djalogu li jinvolvi l-użu ad hoc ta' immaġini, mingħajr ma kkonċentraw fuq immaġini virali 'meme'; dan tal-aħħar, għalkemm qasam ta’ interess fir-riċerka tal-lingwa, huwa bla dubju anqas ta’ sfida, minħabba li t-tifsira ta’ memes virali jista' jiġi dedott aktar faċilment permezz ta’ eluf ta’ użi fil-kuntest fuq pjattaformi tal-midja soċjali.

Żvilupp ta' Illustrazzjonijiet bħala Sostitut għat-Test

Sabiex tiġi żviluppata metodoloġija għat-traslitterazzjoni bilaterali ta' kelma/frażi>immaġini, ir-riċerkaturi tal-Korea t'Isfel ħarrġu sistema ta' tagħlim bil-magni biex jissostitwixxu partijiet minn konverżazzjoni bbażata fuq test f'kontenut ta' immaġini semantikament rilevanti.

Arkitettura tas-sistema Koreana għall-ġenerazzjoni ta' dataset għar-riċerka ta' djalogu multimodali. Sors: https://arxiv.org/pdf/2107.08685.pdf

Arkitettura tas-sistema Koreana għall-ġenerazzjoni ta' dataset għar-riċerka ta' djalogu multimodali. Sors: https://arxiv.org/pdf/2107.08685.pdf

L-ipproċessar minn qabel tal-frażijiet fil-mira kien jinvolvi t-tħassir ta' waqqaf il-kliem li jistgħu jinibixxu tbassir tal-sally li ġejja fil-konversazzjoni, u ż-żbir ta 'skambji ta' kwalità inferjuri permezz ta 'filtri ta' xebh kuntestwali.

Biex tittestja l-utilità tas-sett tad-dejta, ir-riċerkaturi stabbilixxew modulu biex ibassru d-'dawra' li jmiss fid-djalogu filwaqt li jqisu l-kuntest tal-konversazzjoni u l-immaġini involuti.

Il-GUI tal-valutazzjoni umana użata fir-riċerka.

Il-GUI tal-valutazzjoni umana użata fir-riċerka.

Ħames settijiet tad-dejta esterni ntużaw bħala materjal bażi għas-sett tad-dejta 45k (li huwa disponibbli fuq GitHub). Tlieta huma elementi bbażati fuq it-test: DailyDialog, sett ibbażat fuq test multi-dawriet annotat manwalment mill-2017; u Facebook's Djalogi Empatetiċi u, PersonaChat, it-tnejn mill-2018. Iż-żewġ settijiet ta’ dejta bbażati fuq immaġini użati kienu MS-COCO u Flicker30k.

Pari ta' immaġni/test – skema JSON ta' frażijiet fis-sett tad-dejta, assoċjati ma' immaġini (f'dan l-eżempju) mid-database tal-immaġni COCO ta' Microsoft.

Pari ta' immaġni/test – skema JSON ta' frażijiet fis-sett tad-dejta, assoċjati ma' immaġini (f'dan l-eżempju) mid-database tal-immaġni COCO ta' Microsoft.

Is-sostituzzjoni minn test għal immaġni għas-sistema kienet imħaddma minn dawk li ġew imħarrġa minn qabel Netwerk ta' Raġunar Semantiku Viżwali (VSRN), żviluppat fl-2019 mill-Università tal-Grigal f'Boston. VSRN kien stabbilit biex jopera fuq frażijiet magħżula minn qabel manwalment mis-settijiet tad-dejta tat-test li jikkontribwixxu.

Stabbiliment ta' Koerenza

Il-koerenza tas-settijiet tad-dejta tas-sors ġiet stabbilita bl-iżvilupp ta 'sitt kombinazzjonijiet ta' kull sett ta 'dejta tad-djalogu, korrelatati ma' każijiet f'kull sett ta 'dejta tal-immaġni, u evalwati fuq diversi rawnds mill-bnedmin.

Il-punteġġ uman kien ibbażat fuq tliet kriterji: konsistenza mal-kuntest tal-iskambju; immaġni-rilevanza għall-kunċett ewlieni l-immaġni kienet qed tipprova tesprimi; u l-punt sa fejn l-immaġni kien fiha oġġetti ewlenin mis-sentenza fil-mira.

Meta wieħed iqis il-kriterji ta 'l-aħħar, jista' jiġi argumentat li l-iskema li r-riċerkaturi ddeċidew dwarha naqset fil-biċċa l-kbira l-possibbiltà ta 'possibbiltajiet umoristiċi, sarkastiċi, astratti jew metafiżiċi għat-tifsira semantika ta' immaġni li tista 'tiġi injettata f'konverżazzjoni ta' test.

Madankollu, dan huwa xogħol seminali, u jrid jibda x'imkien, filwaqt li qed isiru sforzi konsiderevoli x'imkien ieħor fis-settur tal-Ipproċessar tal-Lingwa Naturali (NLP) biex istanzi tal-mappa ta’ sarkasm, fost eżempji oħra inqas tanġibbli tar-relazzjoni immaġini/test.

Ittestjar

Biex jittestjaw il-qafas tal-ġenerazzjoni tad-dejta, ir-riċerkaturi użaw mudell ta’ rkupru bi tliet partijiet ibbażat fuq l-2020 ta’ Facebook Image-Chat riċerka. Il-modulu jinkludi Resnext-101 bħala encoder tal-immaġni; Google's BERT għall-encoder tat-test; u modulu ta 'fużjoni tad-dwana għal dawn.

Is-sistema kisbet 50.35 u 14.38 fuq il-kompitu ta 'tbassir tas-sentenza attwali u li jmiss, u tejbet fuq il-linja bażi għal kull kompitu.

Aktar tard, żewġ riċerkaturi ngħataw il-kompitu li joħolqu 100 djalogu multimodali billi jdaħħlu immaġini f'konversazzjonijiet manwalment, u jmexxu s-sistema kontra dawn il-konversazzjonijiet multimodali 'organiċi'. Is-sistema kienet kapaċi tbassar l-iskambji attwali u li jmiss b'għarfien għoli tal-kuntest anke għal dawn l-eżempji ad hoc.

Riżultati tal-ittestjar għas-sistema Koreana ta 'ġenerazzjoni ta' dataset multimodali, li jiżvelaw korrelazzjoni għolja b'mod konsistenti bejn ix-xebh minn test għal immaġni u punteġġi ta 'mistoqsijiet ibbażati fuq il-bniedem fuq l-istess data.

Riżultati tal-ittestjar għas-sistema Koreana ta 'ġenerazzjoni ta' dataset multimodali, li jiżvelaw korrelazzjoni għolja b'mod konsistenti bejn ix-xebh minn test għal immaġni u punteġġi ta 'mistoqsijiet ibbażati fuq il-bniedem fuq l-istess data.