cung Shprehja e emocioneve përmes tipografisë me AI - Unite.AI
Lidhu me ne

Inteligjenca artificiale

Shprehja e emocioneve përmes tipografisë me AI

mm
Përditësuar on

Tendencat dhe risitë aktuale në komunikimet me tekst (përfshirë sistemet e postës elektronike, mesazheve dhe titrave) duhet të negociojnë hendekun afektiv midis fjalës së shkruar dhe të folur në mënyra të papërpunuara dhe të përafërta.

Për shembull, vitet e fundit kanë sjellë kapelet e alternuara në modë si një meme provokuese në luftërat e flakës së mediave sociale, ndërsa, the shumë i urryer përdorimi i caps lock (si dhe efektet tipografike të theksuara dhe të mprehta të lejuara nga disa platforma komentesh) vazhdon të provokojë ndërhyrje nga moderatorët. Këto janë metoda monotone dhe vetëm gjerësisht përfaqësuese për të qartësuar qëllimin e fjalës së shkruar.

Në të njëjtën kohë, rritja e popullaritetit të emoticons dhe emojis, si një transmetues hibrid i ndjenjave tekstuale/vizuale, ka të angazhuar në mënyrë aktive sektori kërkimor i Përpunimit të Gjuhës Natyrore (NLP) në vitet e fundit, së bashku me interesin për kuptimi i GIF-ve të animuar që përdoruesit postojnë në temat e komenteve.

Me kalimin e kohës, gjuha e shkruar ka evoluar një fond novator të këtyre metodave gjuhësore 'shtuese', të cilat përpiqen ose të përfaqësojnë emocionin ose ta evokojnë atë në mungesë të informacionit tonal në fjalën e folur.

Zakonisht, megjithatë, ne duhet ta përshkruajmë emocionin sa më mirë që të mundemi nga konteksti i fjalës së shkruar. Konsideroni, për shembull, pasthirrma "Oh, Oh, Oh!", në përfundim të solilokut të çmendur nate të Lady Macbeth-it, ndoshta një rast studimor i masës në të cilën intonacioni mund të ndikojë në kuptim.

Në shumicën e përshtatjeve, ky vajtim i dhimbshëm zgjat 2-6 sekonda; në prodhimin e Trevor Nunn në 1976 Royal Shakespeare Company Makbethi, Judi Dench e çoi leximin e këtij rreshti në një rekord ndoshta të pakundërshtueshëm Sekonda 24.45, në një interpretim historik të rolit.

(Sistemi i vetë titrave të vetë YouTube për këtë klip përshkruan përuljen e Dench si [MUZIKA])

Përkthimi i prozodisë në tipografi

Një punim i fundit nga Brazili propozon një sistem tipografie të moduluar nga të folurit që mund të përfshijë një prozodi, dhe komponentë të tjerë paralinguistikë, drejtpërdrejt në fjalimin e titulluar, duke shtuar një dimension emocioni që kapet dobët nga paraprirja e mbiemrave si p.sh. [Bërtitje], ose truket e tjera 'të sheshta' të disponueshme për konventat e titrave të mbyllura.

Ne propozojmë një model të ri të tipografisë së moduluar nga të folurit, ku veçoritë akustike nga të folurit përdoren për të moduluar pamjen vizuale të tekstit. Kjo mund të lejojë që transkriptimi i një thënieje të caktuar jo vetëm të përfaqësojë fjalët që thuhen, por edhe mënyrën se si janë thënë ato.

"Me këtë, ne shpresojmë të zbulojmë parametra tipografikë që mund të njihen përgjithësisht si përfaqësues vizualë për veçoritë prozodike të amplitudës, lartësisë dhe kohëzgjatjes."

Rrjedha e punës që transliteron prozodinë në stilim tipografik. Me synimin për të prodhuar sistemin më të gjithanshëm dhe më të përhapur të mundshëm, autorët e kufizuan veten në ndryshimin e linjës bazë, bërthamën dhe guximin, këto të fundit sigurohen nga shkathtësia e një fonti të tipit të hapur. Burimi: https://arxiv.org/pdf/2202.10631.pdf

Rrjedha e punës që transliteron prozodinë në stilim tipografik. Me synimin për të prodhuar sistemin më të gjithanshëm dhe më të përhapur të mundshëm, autorët e kufizuan veten në ndryshimin e linjës bazë, bërthamën dhe guximin, këto të fundit sigurohen nga shkathtësia e një fonti të tipit të hapur. Burimi: https://arxiv.org/pdf/2202.10631.pdf

La letër titullohet Thirrjet, pëshpëritjet dhe bërtitjet e fshehura: a mund të tingëllojë teksti më shumë sesa thjesht fjalët e tij?, dhe vjen nga Calua de Lacerda Pataca dhe Paula Dornhofer Paro Costa, dy studiues në Universidade Estadual de Campinas në Brazil.

Fjalë të guximshme

Megjithëse qëllimi më i gjerë i projektit është të zhvillojë sisteme që mund të përcjellin prozodi dhe veçori të tjera parametrike gjuhësore në titrat, autorët besojnë gjithashtu se një sistem i kësaj natyre mund të zhvillojë përfundimisht një audiencë më të gjerë në botën e dëgjimit.

Ka shumë iniciativa të mëparshme në këtë hapësirë, duke përfshirë a Projekti i vitit 1983 që propozoi një sistem titrimi që mund të përfshijë 'efektet speciale, ngjyra dhe shkronjat e mëdha [për të përfaqësuar] informacionin e pasur tonal që u mohohet fëmijëve të shurdhër[.]'.

Në të kundërt, projekti brazilian është në gjendje të përfitojë si nga transkriptimi i automatizuar ashtu edhe nga zhvillimet e reja në njohjen e ndikimit, të cilat kombinohen për të mundësuar një rrjedhë pune që mund të importojë dhe karakterizojë komponentët në një kolonë zanore të të folurit.

Pasi të nxirren dhe përpunohen veçoritë prozodike, ato vendosen në vulat kohore të fjalëve në fjalim, duke prodhuar shenja të cilat më pas mund të përdoren për të aplikuar modulimin e bazuar në rregulla të tipografisë së titrave (shih figurën më lart).

Ky rezultat mund të përfaqësojë vizualisht shkallën në të cilën një rrokje e caktuar mund të zgjatet, pëshpëritet, theksohet ose përndryshe të mbajë informacion kontekstual që do të humbiste në një transkriptim të papërpunuar.

Nga faza e testimit të projektit, vini re mënyrën se si kerning (hapësira midis shkronjave në një fjalë) është zgjeruar për të pasqyruar një shqiptim të zgjatur.

Nga faza e testimit të projektit, vini re mënyrën se si kerning (hapësira midis shkronjave në një fjalë) është zgjeruar për të pasqyruar një shqiptim të zgjatur.

Autorët e bëjnë të qartë se puna e tyre nuk synon të kontribuojë drejtpërdrejt në njohjen e emocioneve dhe të ndikojë në kërkimin e njohjes, por në vend të kësaj kërkon të klasifikojë tiparet e të folurit dhe t'i përfaqësojë ato me një gamë të thjeshtë dhe të kufizuar konvencionesh të reja vizuale.

Së paku, theksi shtesë që ofron sistemi zbërthen fjalitë ku objekti i veprimit mund të mos jetë i qartë për shikuesit që nuk mund ta dëgjojnë tingullin (qoftë për shkak të paaftësisë ose rrethanave të riprodhimit, siç janë mjediset e zhurmshme).

Për të huazuar shembullin tim nga viti 2017, i cili hodhi një vështrim në mënyrën se si munden sistemet e mësimit të makinerive gjithashtu kanë vështirësi për të kuptuar se ku shtrihen objekti dhe veprimi në një fjali, është e lehtë të shihet shkalla në të cilën theksi mund të ndryshojë rrënjësisht kuptimin edhe të një fjalie të thjeshtë:

I nuk e vodhi atë. (Dikush tjetër e vodhi)
I nuk e bëri vjedh atë, (Unë mohoj pretendimin se e kam vjedhur)
Unë nuk e bëra vjedh se. (E posedoj, vjedhja nuk vlen)
Unë nuk kam vjedhur . (Por unë kam vjedhur diçka tjetër)

Potencialisht, një rrjedhë pune mekanike e prozodisë>tipografisë siç sugjerojnë autorët brazilianë mund të jetë gjithashtu e dobishme si një ndihmës në zhvillimin e grupeve të të dhënave për kërkimin e ndikimit në kompjuter, pasi lehtëson përpunimin e të dhënave thjesht të bazuara në tekst që megjithatë përfshin disa paragjuhësore të konkluduara. dimensionet.

Për më tepër, theksojnë studiuesit, ngarkesa shtesë gjuhësore e tekstit të vetëdijshëm për prozodi mund të jetë e dobishme në një sërë detyrash të bazuara në NLP, duke përfshirë vlerësimin e kënaqësisë së klientit dhe për përfundimin e depresionit nga përmbajtja e tekstit.

Tipografi elastike

Kuadri i zhvilluar nga studiuesit ofron variacion në zhvendosjen e vijës bazë, ku një shkronjë mund të jetë më e lartë ose më e ulët në krahasim me 'vijën bazë' mbi të cilën mbështetet fjalia; kerning, ku hapësira midis shkronjave të një fjale mund të tkurret ose të zgjerohet; dhe pesha e shkronjave (guxim).

Këto tre stilime janë të lidhura me veçoritë e nxjerra të të folurit në të cilat projekti është kufizuar: respektivisht, katran, kohëzgjatjedhe rëndësi.

Përparimi i stilimit në një fjali. Në #1, ne shohim kufijtë e rrokjeve që janë përcaktuar në procesin e nxjerrjes. Në #2, ne shohim një paraqitje të secilit prej tre modulimeve (madhësia|pesha, bërthama|kohëzgjatja dhe lartësia|zhvendosja e vijës bazë), të aplikuara veçmas. Në #3, ne shohim modulimet e kombinuara tipografike në rezultatin përfundimtar, siç u paraqitën 117 pjesëmarrësve në një provë të sistemit.

Përparimi i stilimit në një fjali. Në #1, ne shohim kufijtë e rrokjeve që janë përcaktuar në procesin e nxjerrjes. Në #2, ne shohim një paraqitje të secilit prej tre modulimeve (madhësia|pesha, bërthama|kohëzgjatja dhe lartësia|zhvendosja e vijës bazë), të aplikuara veçmas. Në #3, ne shohim modulimet e kombinuara tipografike në rezultatin përfundimtar, siç u paraqitën 117 pjesëmarrësve në një provë të sistemit.

Meqenëse një shkronja e vetme mund të kërkojë një font shtesë dhe të veçantë për variacione të tilla si bold dhe italic, studiuesit përdorën një Google zbatim të fontit OpenType Inter, i cili integron një gamë të grimcuar peshash në një font të vetëm.

Nga letra, një grafik që detajon masën në të cilën një glyph OpenType nga fonti Inter mund të shprehë një sërë theksimesh të theksuara përgjatë skeletit të vijës bazë minimale.

Nga letra, një grafik që detajon masën në të cilën një glyph OpenType nga fonti Inter mund të shprehë një sërë theksimesh të theksuara përgjatë skeletit të vijës bazë minimale.

Testim

Shprehja e kerning dhe zhvendosja bazë u inkorporua në një shtojcë shfletuesi, i cili mundësoi teste të kryera në 117 pjesëmarrës me dëgjim të mundësuar.

Baza e të dhënave për testet u krijua posaçërisht për projektin, duke punësuar një aktor që lexoi disa herë një përzgjedhje poezish me një theks të ndryshëm në secilën prej tyre, që korrespondon me tre tiparet që projekti po studion. Poezia u zgjodh sepse lejon një sërë theksimesh (madje edhe përtej synimit të poetit) pa tingëlluar në natyrë artificiale.

Pjesëmarrësit u ndanë në dy grupe. Të parëve iu dhanë 15 raunde të leximit të një strofe nga aktori të shoqëruar me tekst të sinkronizuar, të animuar dhe të modifikuar, i cili u shpalos në kohë me audioklipin.

Grupi i dytë mori saktësisht të njëjtin grup detyrash, por iu prezantuan imazhe statike të tekstit të moduluar, të cilat nuk ndryshuan fare gjatë riprodhimit të leximeve të aktorit.

Shkalla mesatare e përgjigjeve të sakta ishte 67% jo e rastësishme për grupin e imazheve statike dhe 63% për grupin e tekstit të animuar. Komentet e pjesëmarrësve të kërkuara nga studiuesit pas provave konfirmuan teorinë e tyre se ngarkesa njohëse e interpretimit dinamik mund të ketë kontribuar në rezultatet më të ulëta për testet jostatike. Megjithatë, lloji i sistemeve të titrave dhe mesazheve për të cilat do të synohej një kornizë e tillë zakonisht ofron tekst të plotësuar si parazgjedhje.

Komentet e pjesëmarrësve treguan gjithashtu se ka kufizime të vështira për përdorimin e kerningut për të treguar kohëzgjatjen, me një komentues që vuri në dukje se kur shkronjat janë shumë larg njëra-tjetrës, bëhet e vështirë të veçosh një fjalë.

Studiuesit gjithashtu vërejnë:

"[Disa] pjesëmarrës mendonin se modeli duhet të jetë në gjendje të mishërojë përfaqësime më të nuancuara dhe komplekse të të folurit, gjë që duhet ta bëjë me një fjalor vizual më të larmishëm dhe shprehës. Ndonëse kjo nuk është një detyrë e thjeshtë, megjithatë është inkurajuese të imagjinohet se si aplikime të ndryshme të tipografisë së moduluar nga ligjërimi mund të degëzohen ndërsa zhvillohet kjo fushë e re.'

 

 

Botuar për herë të parë më 24 shkurt 2022.