Connect with us

Kunstig intelligens

Sammenslutning af tale og gestus syntese

mm

Da jeg kom tilbage til Storbritannien fra nogle år i Syditalien, tog det lidt tid at stoppe med at gesticulere, mens jeg talte. I Storbritannien gør det at understøtte din tale med kraftige håndbevægelser dig kun til at se over-caffeeret ud; i Italien hjalp det mig, som en person der lærer sproget, faktisk at blive forstået. Selv nu, på de mere sjældne lejligheder, hvor jeg taler italiensk, kommer de ‘vilde hænder’ tilbage i funktion. Det er næsten umuligt at tale italiensk uden at bevæge sig.

I de senere år er gestus-understøttet kommunikation i italiensk og jødisk kultur kommet til offentlig opmærksomhed som mere end bare en kliche fra Martin Scorseses og tidlige Woody Allen-film. I 2013 samlede New York Times en kort videohistorie over italienske håndgestus; akademikere begynder at studere racemæssige tilbøjeligheder for håndgestus, i stedet for at afvise emnet som en stereotype; og nye emojis fra Unicode Consortium er med til at lukke gestus-underskuddet, der kommer med ren digitale, tekstbaserede kommunikation.

En samlet tilgang til tale og gesticulation

Nu søger ny forskning fra afdelingen for Tale, Musik og Hørelse ved Sveriges KTH Royal Institute of Technology at kombinere tale- og gestusgenkendelse i et samlet, multimodalt system, der potentielt kan øge vores forståelse af talebaseret kommunikation ved at bruge kropssprog som en integreret hjælpefunktion til tale, i stedet for et parallelle felt af studier.

Visuelle billeder fra test siden af det svenske tale/gestus projekt. Kilde: https://swatsw.github.io/isg_icmi21/

Visuelle billeder fra test siden af det svenske tale/gestus projekt. Kilde: https://swatsw.github.io/isg_icmi21/

Forskningen foreslår en ny model kaldet Integrated Speech and Gesture (ISG) syntese, og bringer sammen en række state-of-the-art neurale modeller fra tale- og gestusforskning.

Den nye tilgang forlader den lineære pipeline model (hvor gestusinformation er afledt sekventielt fra tale som en sekundær processtage) for en mere integreret tilgang, der vurderes lige med eksisterende systemer af slutbrugere, og som opnår hurtigere syntese tid og reduceret parameterantal.

Lineær vs. integreret tilgang. Kilde: https://arxiv.org/pdf/2108.11436.pdf

Lineær vs. integreret tilgang. Kilde: https://arxiv.org/pdf/2108.11436.pdf

Det nye multimodale system inkorporerer en spontan tekst-til-tale syntetisator og en audio-tale-dreven gestusgenerator, begge trænet på den eksisterende Trinity Speech Gesture dataset. Datasettet indeholder 244 minutter af audio og kropskaptur af en mand, der taler om forskellige emner og gesticulerer frit.

Arbejdet er en ny og tangential ækvivalent til DurIAN projektet, der genererer ansigtsudtryk og tale, i stedet for gestus og tale, og som falder mere ind under området for udtryksgenkendelse og syntese.

Arkitekturer

Tale- og visuelle (gestus) komponenter af projektet er ude af balance i forhold til data; tekst er sparsom og gesticulation er rig og data-intensiv – en udfordring i forhold til at definere mål og metrikker. Derfor vurderede forskerne systemet primært ved menneskelig respons til output, i stedet for mere åbenlyse mekaniske tilgange som middel fejl (MSE).

De to hoved-ISG-modeller blev udviklet omkring anden iteration af Googles 2017 Tacotron end-to-end tale syntese projekt, og den sydkoreanske Glow-TTS initiativ offentliggjort i 2020. Tacotron anvender en autoregressiv LSTM-arkitektur, mens Glow-TTS fungerer i parallel via convolution operatører, med hurtigere GPU-præstation og uden de stabilitetsproblemer, der kan optræde i autoregressive modeller.

Forfatter til maskinlæring, domæne-specialist i menneskesynthese af billeder. Tidligere leder af forskningsindhold på Metaphysic.ai.