Kunstig intelligens

Unifying Speech and Gesture Synthesis

Published August 28, 2021

Updated April 5, 2026

Martin Anderson

Når jeg kom tilbake til Storbritannia fra noen år i Sør-Italia, tok det ganske lang tid å slutte å gesticulere mens jeg snakket. I Storbritannia gjør det å støtte tale med brede håndbevegelser deg bare til å se over-kafeinert ut; i Italia, som noen som lærer språket, hjalp det faktisk meg å bli forstått. Selv nå, på de mer sjeldne anledningene jeg snakker italiensk, kommer de “ville hendene” tilbake i tjeneste. Det er nesten umulig å snakke italiensk uten å bevege seg.

I de senere år har gest-støttet kommunikasjon i italiensk og jødisk kultur kommet til offentlig oppmerksomhet som mer enn bare et trope fra arbeidet til Martin Scorsese og tidlige Woody Allen-filmer. I 2013 samlet New York Times en kort videohistorie over italienske håndbevegelser; akademia begynner å studere rasepreg til håndbevegelse, i stedet for å avvise emnet som et stereotyp; og nye emojis fra Unicode Consortium er i ferd med å lukke gestmangelen som kommer med ren digitale, tekstbaserte kommunikasjon.

En forent tilnærming til tale og gesticulering

Nå, ny forskning fra avdelingen for tale, musikk og hørsel ved Sveriges KTH Royal Institute of Technology, søker å kombinere tale- og gestgjenkjenning i et forent, multimodalt system som potensielt kan øke vår forståelse av talebasert kommunikasjon ved å bruke kroppsspråk som en integrert hjelp til tale, i stedet for et parallelt studiefelt.

Visuelle fra test siden av det svenske tale/gest-prosjektet. Kilde: https://swatsw.github.io/isg_icmi21/

Forskningen foreslår en ny modell kalt Integrert Tale og Gest (ISG) syntese, og bringer sammen en rekke state-of-the-art neurale modeller fra tale- og gestforskning.

Den nye tilnærmingen forkaster den lineære pipeline-modellen (hvor gestinformasjon er avledet sekvensielt fra tale som en sekundær prosesseringstadie) for en mer integrert tilnærming, som rangerer like med eksisterende systemer ifølge sluttbrukere, og som oppnår raskere syntese tid og redusert parameterantall.

Lineær vs. integrert tilnærming. Kilde: https://arxiv.org/pdf/2108.11436.pdf

Det nye multimodale systemet inkorporerer en spontan tekst-til-tale-syntetisator og en audio-tale-drevet gestgenerator, begge trent på den eksisterende Trinity Speech Gesture dataset. Datasettet inneholder 244 minutter med audio og kroppskapning av en mann som snakker om ulike emner og gesticulerer fritt.

Arbeidet er en ny og tangensial ekvivalent til DurIAN-prosjektet, som genererer ansiktsuttrykk og tale, i stedet for gest og tale, og som faller mer innenfor området for uttrykksgjenkjenning og syntese.

Arkitekturer

Tale- og visuelle (gest) komponentene av prosjektet er ubalansert i forhold til data; tekst er sparsom og gesticulering er rik og dataintensiv – en utfordring i forhold til å definere mål og metrikker. Derfor evaluerte forskerne systemet primært ved menneskelig respons til utgangen, i stedet for mer åpenbare mekaniske tilnærming som middel feil (MSE).

De to hoved-ISG-modellene ble utviklet rundt andre iterasjon av Googles 2017 Tacotron sluttpunkt-til-sluttpunkt tale syntese-prosjekt, og det sørkoreanske Glow-TTS-initiativet publisert i 2020. Tacotron utnytter en autoregressiv LSTM-arkitektur, mens Glow-TTS handler parallelt via konvolusjonsoperatører, med raskere GPU-ytelse og uten stabilitetsproblemer som kan følge autoregressive modeller.

Forskerne testet tre effektive tale/gest-systemer under prosjektet: en modifisert versjon av en multimodal tale- og gestgenerering publisert i 2021 av en rekke av de samme forskerne på det nye prosjektet; en dedikert og modifisert ISG-versjon av åpen kildekode Tacotron 2; og en høyt endret ISG-versjon av Glow-TTS.

For å evaluere systemene, skapte forskerne en web-basert tilbakemeldingsmiljø med artikulerte 3D-personer som snakker og beveger seg til forhåndsdefinerte tekstsegmenter (det generelle utseendet til miljøet kan ses på prosjektets offentlige side).

Testmiljøet.

Testpersoner ble bedt om å evaluere systemets ytelse basert på tale og gest, tale alene, og gest alene. Resultatene viste en liten forbedring i den nye ISG-versjonen sammenlignet med den eldre pipeline-versjonen, selv om det nyere systemet opererer raskere og med reduserte ressurser.

Spurt ‘Hvor menneskelig er gesten?’, fullfører den fullt integrerte ISG-modellen litt foran den sakte pipeline-modellen, med Tacotron og Glow-baserte modeller lenger bak.

Embedded Shrug

Tacotron2-ISG-modellen, den mest suksessfulle av de tre tilnærmingene, demonstrerer et nivå av ‘subliminal’ læring relatert til noen av de mest vanlige frasene i datasettet, som ‘Jeg vet ikke’ – til tross for mangelen på eksplisitt data som ville føre til at den genererer en skulderbevegelse for å ledsage denne frasen, fant forskerne ut at generatoren faktisk skulderbeveger.

Forskerne merker at den svært spesifikke naturen til dette nye prosjektet uunngåelig betyr en mangel på generelle ressurser, som dedikerte datasett som inkorporerer tale- og gestdata på en måte som er egnet for å trene et slikt system. Likevel, og til tross for prosjektets banebrytende natur, betrakter de det som en lovende og lite utforsket vein i tale, lingvistikk og gestgjenkjenning.

Martin Anderson

Forfatter på maskinlæring, domeneekspert på menneskesynthese. Tidligere leder for forskningsinnhold på Metaphysic.ai.

Unite.AI

Unifying Speech and Gesture Synthesis

En forent tilnærming til tale og gesticulering

Arkitekturer

Embedded Shrug

You may like