Artificiell intelligens
Enhetlig tal- och gestergenerering

När jag kom tillbaka till Storbritannien från några år i södra Italien, tog det ganska lång tid att sluta gesticulera medan jag talade. I Storbritannien gör det att man stödjer sitt tal med kraftiga handrörelser att man ser överkaffenerad ut; i Italien, som någon som lärde sig språket, hjälpte det mig faktiskt att förstås. Även nu, på de mer sällsynta tillfällen då jag talar italienska, kommer “vilda händerna” tillbaka i tjänst. Det är nästan omöjligt att tala italienska utan att röra sig.
Under de senaste åren har gester som stödjer kommunikation i italiensk och judisk kultur kommit till allmänhetens uppmärksamhet som mer än bara en stereotyp från Martin Scorseses och tidiga Woody Allen-filmer. 2013 sammanställde New York Times en kort videohistoria över italienska handgestiker; akademin börjar studera rasrelaterade benägenheter för handgestikulerande, snarare än att avfärda ämnet som en stereotyp; och nya emojis från Unicode Consortium är på väg att täppa till gestbristen som följer med rent digital, textbaserad kommunikation.
En enhetlig ansats för tal och gester
Nu, ny forskning från avdelningen för tal, musik och hörsel vid Sveriges KTH Royal Institute of Technology syftar till att kombinera talsyn och gesterkänning i ett enhetligt, multimodalt system som potentiellt kan öka vår förståelse av talbaserad kommunikation genom att använda kroppsspråk som en integrerad del av talet, snarare än ett parallellt studieområde.

Visuella bilder från testsidan för det svenska tal/gest-projektet. Källa: https://swatsw.github.io/isg_icmi21/
Forskningen föreslår en ny modell som kallas Integrerat tal och gester (ISG) syntes, och kombinerar ett antal state-of-the-art neuronnät från talsyn och gesterforskning.
Den nya ansatsen överger den linjära pipeline-modellen (där gesterinformation hämtas sekventiellt från tal som en sekundär bearbetningsfas) för en mer integrerad ansats, som bedöms lika med befintliga system enligt slutanvändare, och som uppnår snabbare syntes och minskad parameterantal.

Linjär vs integrerad ansats. Källa: https://arxiv.org/pdf/2108.11436.pdf
Det nya multimodala systemet inkorporerar en spontan text-till-tal-syntetisator och en ljud-tal-styrd gester-generator, båda tränade på den befintliga Trinity Speech Gesture dataseten. Dataseten innehåller 244 minuter av ljud och kroppskapning av en man som talar om olika ämnen och gesticulerar fritt.
Arbetet är en ny och tangentiell motsvarighet till DurIAN-projektet, som genererar ansiktsuttryck och tal, snarare än gester och tal, och som faller mer inom området för uttrycksfullhet och syntes.
Arkitekturer
Tal- och visuella (gest) komponenterna i projektet är obalanserade i termer av data; texten är sparsam och gesticuleringen är rik och dataintensiv – en utmaning i termer av att definiera mål och mått. Därför utvärderade forskarna systemet primärt genom mänsklig respons på utmatningen, snarare än mer uppenbara mekanistiska tillvägagångssätt som medelvärde kvadratfel (MSE).
De två huvudsakliga ISG-modellerna utvecklades runt den andra iterationen av Googles 2017 Tacotron slut-till-slut-tal-syntesprojekt, och det sydkoreanska Glow-TTS-initiativet publicerat 2020. Tacotron använder en autoregressiv LSTM-arkitektur, medan Glow-TTS fungerar parallellt via konvolutionsoperatorer, med snabbare GPU-prestanda och utan de stabilitetsproblem som kan uppstå med autoregressiva modeller.
Forskarna testade tre effektiva tal/gest-system under projektet: en modifierad version av en multimodal tal- och gester-genererings publicerad 2021 av ett antal av samma forskare i det nya projektet; en dedikerad och modifierad ISG-version av den öppna källkoden Tacotron 2; och en starkt modifierad ISG-version av Glow-TTS.
För att utvärdera systemen skapade forskarna en webbaserad återkopplingsmiljö med artikulerade 3D-personer som talar och rör sig till fördefinierade textsegment (den allmänna utseendet på miljön kan ses på projektets offentliga sida).

Testmiljön.
Testdeltagarna ombads att utvärdera systemets prestanda baserat på tal och gester, tal endast, och gester endast. Resultaten visade en liten förbättring i den nya ISG-versionen jämfört med den äldre pipeline-versionen, även om det nyare systemet fungerar snabbare och med minskade resurser.

Frågade ‘Hur mänsklig är gesten?’, slutar den fullt integrerade ISG-modellen strax före den långsammare pipeline-modellen, med Tacotron- och Glow-baserade modeller längre bak.
Ingjuten axelryckning
Tacotron2-ISG-modellen, den mest framgångsrika av de tre tillvägagångssätten, visar en nivå av ‘undermedveten’ inlärning relaterad till några av de vanligaste fraserna i dataseten, som ‘Jag vet inte’ – trots brist på explicit data som skulle orsaka att den genererar en axelryckning för att åtfölja denna fras, fann forskarna att generatoren faktiskt rycker på axlarna.
Forskarna noterar att den mycket specifika naturen hos detta nya projekt innebär en brist på allmänna resurser, såsom dedikerade dataset som inkorporerar tal- och gesterdata på ett sätt som är lämpligt för att träna ett sådant system. Trots det, och trots den banbrytande karaktären hos forskningen, anser de att det är en lovande och outvecklad väg inom tal, lingvistik och gesterkänning.












