Umjetna inteligencija
Objedinjujuća sinteza govora i geste

Kad sam se vratio u Britaniju nakon nekoliko godina provedenih u južnoj Italiji, trebalo mi je dosta vremena da prestanem gestikulirati dok sam pričao. U Ujedinjenom Kraljevstvu, podupiranje govora hrabrim pokretima ruke samo čini da izgledate previše kofeinizirani; u Italiji, kao nekome tko uči jezik, to mi je zapravo pomoglo da se razumijemoČak i sada, u rjeđim prilikama kada govorim talijanski, 'divlje ruke' se vraćaju u službu. Gotovo je nemoguće govoriti talijanski bez pokreta.
Posljednjih godina komunikacija podržana gestama u talijanskoj i židovskoj kulturi došao je u žižu javnosti kao više od pukog tropa iz djela Martina Scorsesea i ranih filmova Woodyja Allena. Godine 2013. New York Times je sastavio kratka video povijest talijanskih gestikulacija rukama; akademska zajednica počinje proučavati rasne sklonosti gestikuliranju, umjesto da tu temu odbacuje kao stereotip; a novi emojiji iz Unicode konzorcija su zatvaranje geste manjak koji dolazi s čisto digitalnom komunikacijom temeljenom na tekstu.
Jedinstveni pristup govoru i gestikulaciji
Sada, novo istraživanje s Odjela za govor, glazbu i sluh na švedskom Kraljevskom tehnološkom institutu KTH nastoji kombinirati prepoznavanje govora i gestikulacije u jedinstveni, multimodalni sustav koji bi potencijalno mogao povećati naše razumijevanje komunikacije temeljene na govoru korištenjem govora tijela kao integriranog dodatka govoru, a ne kao paralelnog područja istraživanja.

Vizualni elementi s testne stranice projekta švedskog govora/geste. Izvor: https://swatsw.github.io/isg_icmi21/
Istraživanje predlaže novi model nazvan Integrated Speech and Gesture (ISG) sinteza, i okuplja niz najsuvremenijih neuronskih modela iz istraživanja govora i gesta.
Novi pristup napušta linearni model cjevovoda (gdje se informacije o kretnjama izvode sekvencijalno iz govora kao sekundarne faze obrade) za integriraniji pristup, koji ima jednaku ocjenu s postojećim sustavima prema krajnjim korisnicima i koji postiže brže vrijeme sinteze i smanjeni broj parametara.

Linearni nasuprot integriranim pristupima. Izvor: https://arxiv.org/pdf/2108.11436.pdf
Novi multimodalni sustav uključuje spontani sintetizator teksta u govor i generator gesta vođen audio-govorom, oba obučena na postojećoj govornoj gesti Trinity skup podataka. Skup podataka sadrži 244 minute zvuka i snimanja tijela muškarca koji razgovara o različitim temama i slobodno gestikulira.
Djelo je roman i tangencijalni ekvivalent DurIAN projekt, koji generira izraze lica i govor, a ne geste i govor, i koji više spada u područje prepoznavanja i sinteze izraza.
Arhitekture
Govorna i vizualna (gesta) komponente projekta nisu uravnotežene u pogledu podataka; tekst je oskudan, a gestikulacija bogata i intenzivna s podacima – izazov u smislu definiranja ciljeva i metrike. Stoga su istraživači procijenili sustav primarno ljudskim odgovorom na izlaz, a ne očiglednijim mehaničkim pristupima kao što je srednja kvadratna pogreška (MSE).
Dva glavna ISG modela razvijena su oko druga iteracija Googleove 2017. Takotron end-to-end projekt sinteze govora i južnokorejski Sjaj-TTS inicijativa objavljena 2020. Tacotron koristi autoregresivnu LSTM arhitekturu, dok Glow-TTS djeluje paralelno putem konvolucijskih operatora, s bržim performansama GPU-a i bez problema sa stabilnošću koji mogu pratiti autoregresivne modele.
Istraživači su tijekom projekta testirali tri učinkovita sustava govora/gesta: modificiranu verziju multimodalnog generiranja govora i gesta objavljen 2021. nekoliko istih istraživača na novom projektu; namjenska i modificirana ISG verzija otvorenog koda Tacotron 2; i vrlo izmijenjenu ISG verziju Glow-TTS-a.
Kako bi procijenili sustave, istraživači su stvorili mrežno okruženje za povratne informacije koje uključuje artikulirane 3D ljude koji govore i kreću se prema unaprijed definiranim segmentima teksta (opći izgled okruženja može se vidjeti na javna stranica projekta).

Testno okruženje.
Ispitanici su zamoljeni da procijene performanse sustava na temelju govora i geste, samo govora i samo geste. Rezultati su pokazali malo poboljšanje u novoj verziji ISG-a u odnosu na stariju verziju cjevovoda, iako noviji sustav radi brže i sa smanjenim resursima.

Na pitanje 'Koliko je gesta ljudska?', potpuno integrirani ISG model završava neznatno ispred sporijeg modela cjevovoda, dok modeli temeljeni na Tacotronu i Glowu dalje zaostaju.
Ugrađeno Sleganje ramenima
Model Tacotron2-ISG, najuspješniji od tri pristupa, pokazuje razinu 'podsvijesnog' učenja povezanog s nekim od najčešćih fraza u skupu podataka, poput 'Ne znam' - unatoč nedostatku eksplicitnih podataka koji bi uzrokovali generiranje slijeganja ramenima uz ovu frazu, istraživači su otkrili da generator doista sliježe ramenima.
Istraživači napominju da vrlo specifična priroda ovog novog projekta neizbježno znači nedostatak općih resursa, poput namjenskih skupova podataka koji uključuju podatke o govoru i gestama na način prikladan za obuku takvog sustava. Ipak, i unatoč avangardnoj prirodi istraživanja, smatraju ga obećavajućim i malo istraženim putem u prepoznavanju govora, lingvistike i gestikulacije.