stub Nesprimi l-Emozzjoni Permezz tat-Tipografija Bl-AI - Unite.AI
Kuntatt magħna

Intelliġenza Artifiċjali

Nesprimi l-Emozzjoni Permezz tat-Tipografija Bl-AI

mm
Aġġornata on

Ix-xejriet u l-innovazzjonijiet attwali fil-komunikazzjonijiet bit-test (inklużi l-email, il-messaġġi, u s-sistemi ta’ captioning) iridu jinnegozjaw il-qasma affettiva bejn diskors miktub u mitkellem b’modi mhux raffinati u approssimattivi.

Per eżempju, l-aħħar ftit snin ġabu brieret li jalternaw fi vogue bħala meme provokattiv fil-gwerer tal-fjamma tal-midja soċjali, filwaqt li, il mibegħda ħafna l-użu ta 'caps lock (kif ukoll effetti tipografiċi kuraġġużi u jaring permessi minn xi pjattaformi ta' kummenti) ikompli jipprovoka intervent mill-moderaturi. Dawn huma metodi monotoni u rappreżentattivi biss b'mod wiesa 'biex jiċċaraw l-intenzjoni tal-kelma miktuba.

Fl-istess ħin, it-tkabbir tal-popolarità tal-emoticons u l-emojis, bħala trasportatur ibridu tas-sentiment testwali/viżiv, għandu impenjat b'mod attiv is-settur tar-riċerka tal-Ipproċessar tal-Lingwa Naturali (NLP) f’dawn l-aħħar snin, flimkien ma’ interess fil- tifsira ta' GIFs animati li l-utenti jpoġġu fil-ħjut tal-kummenti.

Maż-żmien, il-lingwa miktuba evolviet fond innovattiv ta' dawn il-metodi lingwistiċi 'addittivi', li jippruvaw jew jipprokuraw l-emozzjoni jew iqanqluha fin-nuqqas tal-informazzjoni tonali fil-kelma mitkellma.

Is-soltu, madankollu, irridu nirrendu l-emozzjoni mill-aħjar li nistgħu mill-kuntest tal-kelma miktuba. Ikkunsidra, pereżempju, il- esklamazzjoni 'Oh, Oh, Oh!', fil-konklużjoni ta 'soliloquy deranged bil-lejl ta' Lady Macbeth, forsi studju ta 'każ ta' kemm l-intonazzjoni tista 'taffettwa t-tifsira.

Fil-biċċa l-kbira ta 'l-adattamenti, din il-lamentazzjoni imweġġa' ddum 2-6 sekondi; fil-produzzjoni tal-Royal Shakespeare Company ta’ Trevor Nunn tal-1976 Macbeth, Judi Dench ħadet il-qari ta 'din il-linja għal rekord forsi mhux ikkontestat ta' 24.45 sekondi, f'interpretazzjoni importanti tar-rwol.

(Is-sistema awto-titoli tal-YouTube għal dan il-klipp tiddeskrivi l-ululazzjoni ta' Dench bħala [MUŻIKA])

Tittraduċi Prosodija għal Tipografija

Dokument reċenti mill-Brażil jipproponi sistema ta’ tipografija modulata bid-diskors li potenzjalment tista’ tinkorpora tali prosodija, u komponenti paralingwistiċi oħra, direttament f'diskors b'titoli, li jżidu dimensjoni ta 'emozzjoni li tinqabad ħażin mill-prepending ta' aġġettivi bħal [Għajjat], jew it-tricks 'flat' l-oħra disponibbli għall-konvenzjonijiet tas-sottotitoli tal-titoli magħluqa.

'Aħna nipproponu mudell ġdid ta' Speech-Modulated Typography, fejn karatteristiċi akustiċi mid-diskors jintużaw biex jimmodulaw id-dehra viżwali tat-test. Dan jista' jippermetti li t-traskrizzjoni ta' espressjoni partikolari tirrappreżenta mhux biss kliem li qed jingħad, iżda kif intqal.

"B'dan, nittamaw li niskopru parametri tipografiċi li jistgħu jiġu rikonoxxuti b'mod ġenerali bħala prokuri viżwali għall-karatteristiċi prosodiċi ta 'amplitudni, pitch, u tul."

Il-fluss tax-xogħol li jittraslitera l-prosodija f'grafika tipografika. Bil-għan li jipproduċu l-aktar sistema versatili u li tista 'tintuża b'mod wiesa', l-awturi llimitaw ruħhom għal bidla fil-linja bażi, kerning, u kuraġġ, din tal-aħħar hija pprovduta mill-versatilità ta 'font tat-tip miftuħ. Sors: https://arxiv.org/pdf/2202.10631.pdf

Il-fluss tax-xogħol li jittraslitera l-prosodija f'grafika tipografika. Bil-għan li jipproduċu l-aktar sistema versatili u li tista 'tintuża b'mod wiesa', l-awturi llimitaw ruħhom għal bidla fil-linja bażi, kerning, u kuraġġ, din tal-aħħar hija pprovduta mill-versatilità ta 'font tat-tip miftuħ. Sors: https://arxiv.org/pdf/2202.10631.pdf

il karta huwa intitolat Bawls moħbija, whispers, u yelps: jista’ jsir it-test biex jinstema’ aktar milli sempliċement kliemu?, u ġej minn Calua de Lacerda Pataca u Paula Dornhofer Paro Costa, żewġ riċerkaturi fl-Universidade Estadual de Campinas fil-Brażil.

Kliem Bold

Għalkemm l-għan usa' tal-proġett huwa li jiżviluppa sistemi li jistgħu jwasslu prosodija u karatteristiċi oħra tal-lingwa parametrika fil-titoli, l-awturi jemmnu wkoll li sistema ta' din in-natura tista' eventwalment tiżviluppa udjenza usa' fid-dinja tas-smigħ.

Hemm ħafna inizjattivi minn qabel f’dan l-ispazju, fosthom a Proġett 1983 li pproponiet sistema ta’ captioning li tista’ tinkludi 'effetti speċjali, kulur, u ittri kapitali [biex jirrappreżentaw] l-informazzjoni tonali għanja miċħuda tfal neqsin mis-smigħ[.]'.

B'kuntrast, il-proġett Brażiljan huwa kapaċi jieħu vantaġġ kemm mit-traskrizzjoni awtomatizzata kif ukoll minn żviluppi ġodda fir-rikonoxximent tal-effett, li jingħaqdu biex jippermettu fluss tax-xogħol li jista' jimporta u jikkaratterizza l-komponenti f'soundtrack tad-diskors.

Wara li l-karatteristiċi prosodiċi jiġu estratti u pproċessati, huma mmappjati mal-time-stamps tal-kliem fid-diskors, li jipproduċu tokens li mbagħad jistgħu jintużaw biex tiġi applikata modulazzjoni bbażata fuq ir-regoli tat-tipografija tal-caption (ara l-immaġni hawn fuq).

Dan ir-riżultat jista 'jirrappreżenta viżwalment sa fejn sillaba partikolari tista' tittawwal, whisper, enfasizzata, jew inkella żżomm informazzjoni kuntestwali li tintilef fi traskrizzjoni mhux maħduma.

Mill-fażi tat-test tal-proġett, innota l-mod li l-kerning (l-ispazju bejn l-ittri f’kelma) twessa’ biex jirrifletti pronunzja fit-tul.

Mill-fażi tat-test tal-proġett, innota l-mod li l-kerning (l-ispazju bejn l-ittri f’kelma) twessa’ biex jirrifletti pronunzja fit-tul.

L-awturi jagħmlu ċar li x-xogħol tagħhom mhuwiex maħsub biex jikkontribwixxi direttament għar-rikonoxximent tal-emozzjonijiet u jaffettwa r-riċerka dwar ir-rikonoxximent, iżda minflok jipprova jikklassifika l-karatteristiċi tad-diskors u jirrappreżentahom b'firxa sempliċi u limitata ta 'konvenzjonijiet viżwali ġodda.

Mill-inqas, l-enfasi addizzjonali li s-sistema tipprovdi tiddiżambigwa sentenzi fejn l-oġġett tal-azzjoni jista’ ma jkunx ċar għat-telespettaturi li ma jistgħux jisimgħu l-ħoss (jew permezz ta’ diżabilità jew iċ-ċirkustanzi ta’ daqq, bħal ambjenti storbjużi).

Biex nissellef l-eżempju tiegħi stess mill-2017, li tat ħarsa lejn il-mod kif is-sistemi ta 'tagħlim bil-magni jistgħu għandhom ukoll diffikultà meta wieħed jifhem fejn jinsabu l-oġġett u l-azzjoni f'sentenza, huwa faċli li wieħed jara kemm l-enfasi tista' tbiddel radikalment it-tifsira ta' anki sentenza sempliċi:

I ma seraqx dak. (Xi ħadd ieħor seraqha)
I ma steal that, (jiċħad l-allegazzjoni li seraqha)
Jien ma kontx steal dak. (Jien stess, is-serq ma japplikax)
Jien ma serqtx Li. (Imma sraqt xi ħaġa oħra)

Potenzjalment, fluss tax-xogħol ta' prosodija>tipografija mekkanistiku bħalma jissuġġerixxu l-awturi Brażiljani jista' jkun utli wkoll bħala aġġunt fl-iżvilupp ta' settijiet ta' dejta biex jaffettwaw ir-riċerka tal-kompjuters, peress li jiffaċilita l-ipproċessar ta' dejta purament ibbażata fuq it-test li madankollu tinkorpora xi paralingwistiku pre-inferit. dimensjonijiet.

Barra minn hekk, jinnotaw ir-riċerkaturi, it-tagħbija lingwistika żejda tat-test konxju mill-prosodija tista 'tkun utli f'firxa ta' kompiti bbażati fuq NLP, inkluża l-evalwazzjoni tas-sodisfazzjon tal-klijent, u għall-inferenza ta 'dipressjoni mill-kontenut tat-test.

Tipografija elastika

Il-qafas żviluppat mir-riċerkaturi joffri varjazzjoni fil-bidla fil-linja bażi, fejn ittra tista' tkun ogħla jew aktar baxxa meta mqabbla mal-'linja bażi' li fuqha tistrieħ is-sentenza; kerning, fejn l-ispazju bejn l-ittri ta’ kelma jista’ jiġi kkuntrattat jew estiż; u l-piż tat-tipa (kuraġġ).

Dawn it-tliet stili mapep għall-karatteristiċi estratti tad-diskors li l-proġett illimita ruħu għalihom: rispettivament, żift, kemm iddum, u kobor.

Il-progressjoni tal-grafika fuq sentenza. F'#1, naraw il-konfini tas-sillaba li ġew definiti fil-proċess ta 'estrazzjoni. F'#2, naraw rappreżentazzjoni ta 'kull waħda mit-tliet modulazzjonijiet (kobor|piż, kerning|tul, u pitch|bidla fil-linja bażi), applikata waħedha. F'#3, naraw il-modulazzjonijiet tipografiċi kkombinati fl-output finali, kif ippreżentati lill-parteċipanti 117 fi prova tas-sistema.

Il-progressjoni tal-grafika fuq sentenza. F'#1, naraw il-konfini tas-sillaba li ġew definiti fil-proċess ta 'estrazzjoni. F'#2, naraw rappreżentazzjoni ta 'kull waħda mit-tliet modulazzjonijiet (kobor|piż, kerning|tul, u pitch|bidla fil-linja bażi), applikata waħedha. F'#3, naraw il-modulazzjonijiet tipografiċi kkombinati fl-output finali, kif ippreżentati lill-parteċipanti 117 fi prova tas-sistema.

Peress li tipa waħda tista' teħtieġ font addizzjonali u separata għal varjazzjonijiet bħal skuri u korsiv, ir-riċerkaturi użaw Google implimentazzjoni tat-tipa OpenType Inter, li tintegra firxa granulari ta' piżijiet f'tipa waħda.

Mill-karta, tabella li tagħti dettalji dwar kemm glif OpenType mit-tipa Inter jista 'tesprimi firxa ta' enfasi grassa tul l-iskeletru tal-spline bażi minima.

Mill-karta, tabella li tagħti dettalji dwar kemm glif OpenType mit-tipa Inter jista 'tesprimi firxa ta' enfasi grassa tul l-iskeletru tal-spline bażi minima.

Ittestjar

L-espressjoni tal-kerning u ċ-ċaqliq tal-linja bażi ġiet inkorporata f'plugin tal-browser, li ppermetta testijiet imwettqa fuq 117-il parteċipant li ppermettiet is-smigħ.

Is-sett tad-dejta għat-testijiet inħoloq speċifikament għall-proġett, permezz ta’ kiri ta’ attur li jaqra għażla ta’ poeżiji diversi drabi b’enfasi differenti fuq kull teħid, li jikkorrispondi mat-tliet karatteristiċi li l-proġett qed jistudja. Il-poeżija ntgħażlet għax tippermetti firxa ta’ enfasi (anke lil hinn mill-intenzjoni tal-poeta) mingħajr ma tinstema’ ta’ natura artifiċjali.

Il-parteċipanti nqasmu f'żewġ gruppi. L-ewwel ingħataw 15-il rawnd ta’ qari mill-attur ta’ strofa akkumpanjata b’test sinkronizzat, animat u modulat, li żvolġiet fil-ħin mal-klipp tal-awdjo.

It-tieni grupp irċieva eżattament l-istess sett ta 'kompiti, iżda ġew ippreżentati b'immaġini statiċi tat-test modulat, li ma nbidlu xejn matul il-qari tal-qari tal-attur.

Ir-rata medja ta’ tweġibiet korretti kienet ta’ 67% mhux każwali għall-grupp ta’ immaġni statiċi, u 63% għall-grupp ta’ test animat. Il-kummenti tal-parteċipanti mitluba mir-riċerkaturi wara l-provi kkonfermaw it-teorija tagħhom li t-tagħbija konjittiva tal-interpretazzjoni dinamika setgħet ikkontribwiet għall-punteġġi aktar baxxi għat-testijiet mhux statiċi. Madankollu, it-tip ta' sistemi ta' sottotitoli u messaġġi li tali qafas ikun maħsub għalihom tipikament jipprovdi test għal kull komplut b'mod awtomatiku.

Il-kummenti tal-parteċipanti indikaw ukoll li hemm limiti iebsin għall-użu tal-kerning biex jindika t-tul, b'kummentatur wieħed jinnota li meta l-ittri huma spazjati wisq, isir diffiċli li kelma tindividwa.

Ir-riċerkaturi jinnotaw ukoll:

'[Xi] parteċipanti ħassew li l-mudell għandu jkun jista' jinkorpora rappreżentazzjonijiet aktar sfumati u kumplessi tad-diskors, li għandu jagħmel b'vokabularju viżwali aktar varjat u espressiv. Filwaqt li din mhix biċċa xogħol sempliċi, huwa madankollu inkoraġġanti li wieħed jimmaġina kif applikazzjonijiet differenti ta' tipografija modulata bid-diskors jistgħu joħorġu hekk kif dan il-qasam ġdid jiżviluppa.'

 

 

Ippublikat għall-ewwel darba fis-24 ta' Frar 2022.