Artificiell intelligens
Förenande tal- och gestsyntes

NĂ€r jag kom tillbaka till Storbritannien frĂ„n nĂ„gra Ă„r i södra Italien tog det ganska lĂ„ng tid att sluta gestikulera medan jag pratade. I Storbritannien, att stödja ditt tal med djĂ€rva handrörelser fĂ„r dig bara att se överkoffeinrik ut; i Italien, som nĂ„gon som lĂ€rde mig sprĂ„ket, hjĂ€lpte det mig faktiskt att bli förstĂ„ddĂven nu, vid de mer sĂ€llsynta tillfĂ€llen jag talar italienska, kommer de "vilda hĂ€nderna" tillbaka till tjĂ€nst. Det Ă€r nĂ€stan omöjligt att tala italienska utan att röra pĂ„ sig.
De senaste Ären har geststödd kommunikation i italiensk och judisk kultur har kommit till allmÀnhetens uppmÀrksamhet som mer Àn bara en trope frÄn arbetet med Martin Scorsese och tidiga Woody Allen-filmer. 2013 sammanstÀllde New York Times en kort videohistorik av italienska handgester; akademin börjar studera rasbenÀgenhet för handgester, snarare Àn att avfÀrda Àmnet som en stereotyp; och nya emojis frÄn Unicode Consortium Àr stÀnger gestbristen som kommer med rent digital, textbaserad kommunikation.
En enhetlig strategi för tal och gestikulation
Nu, ny forskning frÄn institutionen för tal, musik och hörsel vid Kungliga Tekniska Högskolan i Sverige (KTH) strÀvar efter att kombinera tal- och gestigenkÀnning till ett enhetligt, multimodalt system som potentiellt skulle kunna öka vÄr förstÄelse av talbaserad kommunikation genom att anvÀnda kroppssprÄk som ett integrerat komplement till tal, snarare Àn ett parallellt studieomrÄde.

Bildmaterial frÄn testsidan för det svenska tal/gestprojektet. KÀlla: https://swatsw.github.io/isg_icmi21/
Forskningen föreslÄr en ny modell kallad Integrated Speech and Gesture (ISG) syntes, och sammanför ett antal toppmoderna neurala modeller frÄn tal- och gestforskning.
Det nya tillvÀgagÄngssÀttet överger det linjÀra rörledningsmodell (dÀr gestinformation hÀrleds sekventiellt frÄn tal som ett sekundÀrt bearbetningssteg) för ett mer integrerat tillvÀgagÄngssÀtt, som vÀrderar lika mycket med befintliga system enligt slutanvÀndare, och som uppnÄr snabbare syntestid och minskat parameterantal.

LinjÀra kontra integrerade tillvÀgagÄngssÀtt. KÀlla: https://arxiv.org/pdf/2108.11436.pdf
Det nya multimodala systemet innehÄller en spontan text-till-tal-syntes och en ljud-tal-driven gestgenerator, bÄda trÀnade pÄ den befintliga Trinity Speech Gesture dataset. DatauppsÀttningen innehÄller 244 minuters ljud- och kroppsfÄngst av en man som pratar om olika Àmnen och gestikulerar fritt.
Verket Àr en ny och tangentiell motsvarighet till DurIAN projekt, som genererar ansiktsuttryck och tal, snarare Àn gester och tal, och som faller mer in i sfÀren av uttrycksigenkÀnning och syntes.
Arkitekturer
Tal och visuella (gester) komponenterna i projektet Ă€r dĂ„ligt balanserade nĂ€r det gĂ€ller data; texten Ă€r sparsam och gestikulationen Ă€r rik och dataintensiv â en utmaning nĂ€r det gĂ€ller att definiera mĂ„l och mĂ„tt. DĂ€rför utvĂ€rderade forskarna systemet frĂ€mst genom mĂ€nskligt svar pĂ„ resultatet, snarare Ă€n mer uppenbara mekanistiska tillvĂ€gagĂ„ngssĂ€tt som medelkvadratfel (MSE).
De tvÄ huvudsakliga ISG-modellerna utvecklades kring andra iteration av Googles 2017 Tacotron end-to-end talsyntesprojekt, och den sydkoreanska Glow-TTS initiativ publicerat 2020. Tacotron anvÀnder en autoregressiv LSTM-arkitektur, medan Glow-TTS agerar parallellt via faltningsoperatorer, med snabbare GPU-prestanda och utan de stabilitetsproblem som kan uppleva autoregressiva modeller.
Forskarna testade tre effektiva tal/gestersystem under projektet: en modifierad version av en multimodal tal- och gestgenerering publicerade 2021 av ett antal av samma forskare om det nya projektet; en dedikerad och modifierad ISG-version av Tacotron 2 med öppen kÀllkod; och en mycket förÀndrad ISG-version av Glow-TTS.
För att utvÀrdera systemen skapade forskarna en webbaserad feedbackmiljö med artikulerade 3D-personer som talar och flyttar till fördefinierade textsegment (miljöns allmÀnna utseende kan ses pÄ offentlig projektsida).

Testmiljön.
Testpersonerna ombads att utvÀrdera systemets prestanda baserat pÄ tal och gester, endast tal och endast gester. Resultaten visade en liten förbÀttring i den nya ISG-versionen jÀmfört med den Àldre pipelineversionen, Àven om det nyare systemet fungerar snabbare och med minskade resurser.

PÄ frÄgan "Hur mÀnsklig Àr gesten?" slutar den helt integrerade ISG-modellen nÄgot före den lÄngsammare pipeline-modellen, medan Tacotron- och Glow-baserade modellerna ligger lÀngre efter.
InbÀddad axelryckning
Tacotron2-ISG-modellen, den mest framgĂ„ngsrika av de tre metoderna, visar en nivĂ„ av "subliminalt" lĂ€rande relaterat till nĂ„gra av de vanligaste fraserna i datamĂ€ngden, sĂ„som "Jag vet inte" â trots bristen pĂ„ explicita data som skulle fĂ„ den att generera en axelryckning som Ă„tföljer denna fras, fann forskarna att generatorn faktiskt rycker pĂ„ axlarna.
Forskarna noterar att den mycket specifika karaktÀren hos detta nya projekt oundvikligen innebÀr en brist pÄ generella resurser, sÄsom dedikerade datamÀngder som införlivar tal- och gestdata pÄ ett sÀtt som Àr lÀmpligt för att trÀna ett sÄdant system. Trots forskningens framstÄende karaktÀr anser de att den Àr en lovande och lite utforskad vÀg inom tal, lingvistik och gestigenkÀnning.