Îstîxbaratê ya sûnî

Hînkirina AI-ê ji bo Fêmkirin û Bikaranîna Wêneyan di Diyalogê de

Demê on December 9, 2022

Lekolînwanên ji Koreya Başûr danegehek çêkiriye ku ji bo alîkariya lêkolînê li ser têgihîştina AI-yê ya awayê ku mirov wêneyan di diyalogê de bikar tîne, û ji bo ku modelên zimanê xwezayî bibin alîkar da ku beşdarî vê pêşkeftina herî dawî ya di ragihandina mirovan de bibin, pêşve xistin.

Ew kaxez, ji KAIST li Daedeok Innopolis, destnîşan dike ku lêkolîna li ser pergalên diyalogê yên pir-modal di van deh salên dawî de ji hêla danehev û metodolojiyên ku navenda wan li ser dîsîplînên ku ji mijarê re dorhêl in, hatine asteng kirin, wek mînak. bersiva pirsa dîtbarî û sernavê wêneyê.

Di van nêzîkatiyên kevn de, wêne ji çarçoweya ferhengî ya danûstendinê têne nirxandin, bêyî têgihîştina awayê ku diyalog ji hêla bersivên wêneyê ve hatî zêdekirin û pêşve xistin, û ne şemayek xaçerê ya ji bo deşîfrekirina tevkariyên dîtbarî yên ji axaftinê re.

Wêneyên wekî Rûyên Yekem ên Diyalogê

Gelek nêzîkatiyên jorîn heta îro însiyatîf an pêşkeftinên ji milê lêkolînê yê AI-yê Microsoft-ê ne, ku di sala 2017-an de jî lêkolîn kirin mijara sohbetên multimodal ku in destpêkirin ji hêla wêneyek ve, li şûna ku bi serbestî wêneyan wekî pêkhateyên diyalogê bikar bînin.

Ji bo çareserkirina kêmbûna daneyên lêkolînê, lêkolînerên Koreya Başûr danehevek ji 45,000 mînakên diyalogê yên ku bi karanîna ad hoc a wêneyan ve girêdayî ne, bêyî balkişandina li ser wêneyên 'meme' yên viral; ya paşîn, her çend di lêkolîna ziman de herêmek eleqedar e jî, bê guman kêmtir dijwar e, ji ber ku wateya memên viral dikare were destnîşankirin hêsantir bi hezaran karanîna hundurîn li ser platformên medyaya civakî.

Pêşxistina Illustrations wek Cîgir ji bo Nivîsar

Ji bo pêşvebirina metodolojîyek ji bo veguheztina dualî ya peyv/hevok>wêne, lêkolînerên Koreya Başûr pergalek fêrbûna makîneyê perwerde kirine da ku beşên danûstendinek-based nivîsê di nav naveroka wêneya têkildar a semantîkî de biguhezîne.

Mîmariya pergala Koreyî ya ji bo hilberîna danûstendinek ji bo lêkolîna diyaloga pirmodal. Çavkanî: https://arxiv.org/pdf/2107.08685.pdf

Pêş-pêvajoya bêjeyên armanc jêbirina wan pêk tê peyvan rawestînin ku dibe ku pêşbîniya saliya jêrîn di danûstendinê de, û qutkirina danûstendinên qalîteya jêrîn bi navgîniya parzûnên hevsengiya kontekstê asteng bike.

Ji bo ceribandina karanîna danûstendinê, lêkolîner modulek saz kirin ku dema ku çarçoweya danûstendinê û wêneyên tê de dihesibîne "zivirandina" ya din a diyalogê pêşbîn bike.

GUI-ya nirxandina mirovan di lêkolînê de hatî bikar anîn.

Pênc daneyên derveyî wekî materyalê bingehîn ji bo daneya 45k hate bikar anîn (ku ev e li ser GitHub peyda dibe). Sê hêmanên li ser nivîsê ne: DailyDialog, ji 2017-an de komek-based nivîsê ya pir-zivir bi destan-navnîşankirî; û Facebookê EmpatheticDialogues û PersonaChat, hem ji 2018. Du setên-based image bikaranîn MS-COCO û Flicker30k.

Cotên wêne / nivîsê - şemaya JSON ya hevokan ên di databasê de, bi wêneyan (di vê nimûneyê de) ji databasa wêneya COCO ya Microsoft-ê ve girêdayî ye.

Ji bo pergalê veguherîna nivîs bi wêneyê ji hêla pêş-perwerdekirî ve hatî hêz kirin Tora Ragihandina Semantîk a Visual (VSRN), di sala 2019-an de ji Zanîngeha Northeastern li Boston hatî pêşve xistin. VSRN hate destnîşan kirin ku li ser bêjeyên pêş-hilbijartî yên bi destan ên ji berhevokên nivîsê yên beşdar kar bike.

Avakirina Hevgirtinê

Hevrêziya danehevên çavkaniyê bi pêşxistina şeş berhevokên her daneheva diyalogê, bi mînakên di her daneheva wêneyê re têkildar hate saz kirin, û ji hêla mirovan ve di gelek qonaxan de hate nirxandin.

Pûankirina mirovan li ser sê pîvanan bû: lihevhatina li ser çarçoveya danûstendinê; Girêdana wêneyê bi têgeha bingehîn re ku wêneyê hewl dida îfade bike; û radeya ku di wêneyê de tiştên sereke ji hevoka armanc vedihewîne.

Li gorî pîvanên paşîn, meriv dikare were nîqaş kirin ku şemaya ku lêkolîneran biryar daye bi giranî îmkanên mîzahî, sarkastîk, razber an metafizîkî ji bo wateya semantîkî ya wêneyek ku dibe ku di danûstendinek nivîsê de were derzî kirin kêm kiriye.

Lêbelê, ev xebatek bingehîn e, û pêdivî ye ku ew ji cîhek dest pê bike, dema ku di sektora Pêvajoya Zimanê Xwezayî (NLP) de li cîhek din hewildanên girîng têne xerc kirin ku mînakên nexşeya sarkazmê, di nav mînakên din ên kêmtir berbiçav ên têkiliya wêne / nivîsê de.

testkirina

Ji bo ceribandina çarçoweya hilberîna daneyê, lêkolîneran modelek vegerandina sê-beşî li ser bingeha Facebook-ê ya 2020-an bikar anîn. Wêne-Chat lêkolîn. Module pêk tê Resnext-101 wekî kodkerek wêneyê; Google's Bert ji bo şîfreya nivîsê; û ji bo van modulek fusionek xwerû.

Pergalê li ser peywira pêşbîniya hevokê ya niha û ya paşîn 50.35 û 14.38 bi dest xist, ji bo her peywirê li ser bingeha bingehîn çêtir dibe.

Dûv re, du lêkolîner hatin peywirdarkirin ku 100 diyalogên multîmodal biafirînin ku wêneyan bi destan têxin nav sohbetan, û pergalê li dijî van danûstendinên pirmodal ên 'organîk' bimeşînin. Pergalê karîbû ji bo van mînakên ad hoc jî danûstandinên heyî û yên paşerojê bi hişmendiya zêde ya çarçovê pêşbîn bike.

Encamên ceribandina ji bo pergala hilberîna daneheva pirmodal a Koreyî, pêwendiyek domdar a bilind di navbera wekheviya nivîs-bi-wêne û xalên pirsa-bingeha mirovan de li ser heman daneyê eşkere dike.