Kunstig intelligens
Samlende tale- og bevegelsessyntese

Da jeg kom tilbake til Storbritannia fra noen år i Sør-Italia, tok det ganske lang tid å slutte å gestikulere mens jeg snakket. I Storbritannia får du bare til å se overkoffeinrik ut hvis du støtter talen din med dristige håndbevegelser; i Italia, som en som lærte språket, hjalp det meg faktisk å bli forståttSelv nå, ved de sjeldnere anledningene jeg snakker italiensk, kommer «ville hender» tilbake til tjeneste. Det er nesten umulig å snakke italiensk uten å bevege seg.
De siste årene har geststøttet kommunikasjon i italiensk og jødisk kultur har kommet til offentlig oppmerksomhet som mer enn bare en trope fra arbeidet til Martin Scorsese og tidlige Woody Allen-filmer. I 2013 kompilerte New York Times en kort videohistorikk av italienske håndbevegelser; akademia begynner å studere rasetilbøyeligheter til håndbevegelser, i stedet for å avfeie emnet som en stereotypi; og nye emojier fra Unicode Consortium er lukke bevegelsesmangelen som kommer med rent digital, tekstbasert kommunikasjon.
En enhetlig tilnærming til tale og gestikulering
Nå, ny forskning fra Institutt for tale, musikk og hørsel ved Kungliga tekniska högskolan i Sverige, KTH, søker å kombinere tale- og gestgjenkjenning til et enhetlig, multimodalt system som potensielt kan øke vår forståelse av talebasert kommunikasjon ved å bruke kroppsspråk som et integrert tillegg til tale, snarere enn et parallelt studiefelt.

Visuals fra testsiden til det svenske tale-/gestprosjektet. Kilde: https://swatsw.github.io/isg_icmi21/
Forskningen foreslår en ny modell kalt Integrated Speech and Gesture (ISG) syntese, og samler en rekke toppmoderne nevrale modeller fra tale- og gestforskning.
Den nye tilnærmingen forlater det lineære rørledningsmodell (hvor gestinformasjon er utledet sekvensielt fra tale som et sekundært prosesseringstrinn) for en mer integrert tilnærming, som vurderer likt med eksisterende systemer i henhold til sluttbrukere, og som oppnår raskere syntesetid og redusert parametertelling.

Lineære vs. integrerte tilnærminger. Kilde: https://arxiv.org/pdf/2108.11436.pdf
Det nye multimodale systemet inkluderer en spontan tekst-til-tale-synthesizer og en lyd-tale-drevet gestgenerator, begge trent på den eksisterende Trinity Speech Gesture datasett. Datasettet inneholder 244 minutter med lyd og kroppsfangst av en mann som snakker om forskjellige emner og gestikulerer fritt.
Verket er en roman og tangentiell ekvivalent med DurIAN prosjekt, som genererer ansiktsuttrykk og tale, snarere enn gester og tale, og som faller mer inn i området for uttrykksgjenkjenning og syntese.
Arkitekturer
Prosjektets tale- og visuelle (gest)komponenter er dårlig balanserte når det gjelder data; teksten er sparsom og gestikuleringen er rik og dataintensiv – en utfordring når det gjelder å definere mål og beregninger. Derfor evaluerte forskerne systemet først og fremst ved menneskelig respons på resultatet, snarere enn mer åpenbare mekanistiske tilnærminger som gjennomsnittlig kvadratfeil (MSE).
De to viktigste ISG-modellene ble utviklet rundt andre iterasjon av Googles 2017 Tacotron ende-til-ende talesynteseprosjekt, og det sørkoreanske Glød-TTS initiativ publisert i 2020. Tacotron benytter en autoregressiv LSTM-arkitektur, mens Glow-TTS fungerer parallelt via konvolusjonsoperatører, med raskere GPU-ytelse og uten stabilitetsproblemene som kan delta i autoregressive modeller.
Forskerne testet tre effektive tale-/bevegelsessystemer i løpet av prosjektet: en modifisert versjon av en multimodal tale-og-bevegelsesgenerering publisert i 2021 av en rekke av de samme forskerne på det nye prosjektet; en dedikert og modifisert ISG-versjon av åpen kildekode Tacotron 2; og en svært endret ISG-versjon av Glow-TTS.
For å evaluere systemene opprettet forskerne et nettbasert tilbakemeldingsmiljø med artikulerte 3D-personer som snakker og beveger seg til forhåndsdefinerte tekstsegmenter (det generelle utseendet til miljøet kan sees på offentlig prosjektside).

Testmiljøet.
Testpersoner ble bedt om å evaluere systemets ytelse basert på tale og bevegelser, kun tale og kun bevegelser. Resultatene viste en liten forbedring i den nye ISG-versjonen i forhold til den eldre pipeline-versjonen, selv om det nyere systemet fungerer raskere og med reduserte ressurser.

På spørsmålet «Hvor menneskelig er gesten?» ender den fullt integrerte ISG-modellen litt foran den tregere pipeline-modellen, med Tacotron- og Glow-baserte modeller lenger bak.
Innebygd skuldertrekk
Tacotron2-ISG-modellen, den mest vellykkede av de tre tilnærmingene, demonstrerer et nivå av «subliminal» læring relatert til noen av de vanligste frasene i datasettet, for eksempel «Jeg vet ikke» – til tross for mangel på eksplisitte data som ville føre til at den genererer et skuldertrekk for å følge denne frasen, fant forskerne at generatoren faktisk trekker på skuldrene.
Forskerne bemerker at den svært spesifikke naturen til dette nye prosjektet uunngåelig betyr mangel på generelle ressurser, som dedikerte datasett som innlemmer tale- og gestdata på en måte som er egnet for trening av et slikt system. Likevel, og til tross for forskningens banebrytende natur, anser de det som en lovende og lite utforsket vei innen tale, lingvistikk og gestgjenkjenning.