Umělá inteligence

Unifying Speech and Gesture Synthesis

Published August 28, 2021

Updated April 5, 2026

Martin Anderson

Když jsem se vrátil do Británie po několika letech strávených v jižní Itálii, trvalo mi docela dlouho, než jsem přestal při mluvení gestikulovat. Ve Spojeném království podporovat svou řeč výraznými pohyby rukou dělá vás vypadat přehnaně kofeinovými; v Itálii, jako někdo, kdo se učí jazyk, mi to skutečně pomohlo být pochopitelný. I nyní, ve vzácnějších případech, kdy mluvím italsky, se “divoké ruce” opět vrátily do služby. Je téměř nemožné mluvit italsky bez pohybu.

V posledních letech se gestikulace podporovaná komunikací v italské a židovské kultuře dostala do veřejného povědomí jako více než jen trope z práce Martina Scorsese a raných filmů Woodyho Allena. V roce 2013 New York Times sestavil krátkou video historii italských gestikulací; akademie začíná studovat rasové sklony k gestikulaci, místo aby odmítala předmět jako stereotyp; a nové emodži z Unicode Consortium zavírají gestikulační nedostatek, který přichází s čistě digitální, textovou komunikací.

Jednotný přístup k řeči a gestikulaci

Nyní, nový výzkum z oddělení řeči, hudby a slyšení na Švédském KTH Royal Institute of Technology se snaží kombinovat řeč a gestikulaci do jednotného, multimodálního systému, který by mohl potenciálně zvýšit naše porozumění komunikačnímu procesu založenému na řeči pomocí gestikulace jako integrovaného doplňku k řeči, místo aby to bylo paralelní pole studia.

Vizualizace z testovací stránky švédského projektu řeči/gestikulace. Source: https://swatsw.github.io/isg_icmi21/

Výzkum navrhuje nový model nazvaný Integrated Speech and Gesture (ISG) syntéza a spojuje několik stávajících modelů z oblasti řeči a gestikulace.

Nový přístup opouští lineární pipeline model (kde gestikulační informace jsou odvozeny sekvenčně z řeči jako sekundární zpracování) pro více integrovaný přístup, který se rovná stávajícím systémům podle konečných uživatelů a který dosahuje rychlejší syntézy a snížení počtu parametrů.

Lineární vs. integrovaný přístup. Source: https://arxiv.org/pdf/2108.11436.pdf

Nový multimodální systém zahrnuje spontánní text-to-speech syntetizér a audio-řečový generátor gest, oba trénované na stávajícím Trinity Speech Gesture datasetu. Dataset obsahuje 244 minut audio a tělesné zachycení muže, který mluví na různé téma a gestikuluje volně.

Práce je novým a tangenciálním ekvivalentem DurIAN projektu, který generuje faciální výrazy a řeč, místo gestikulace a řeči, a který spadá více do oblasti rozpoznávání a syntézy výrazů.

Architektury

Řečové a vizuální (gestikulační) komponenty projektu jsou nevyvážené z hlediska dat; text je řídký a gestikulace je bohatá a datově náročná – výzva z hlediska definice cílů a metrik. Proto výzkumníci hodnotili systém především podle lidské reakce na výstup, místo aby používali mechanistické přístupy, jako je střední čtvercová chyba (MSE).

Dva hlavní modely ISG byly vyvinuty kolem druhé iterace Googleova projektu Tacotron z roku 2017, a jihokorejského Glow-TTS iniciativy publikované v roce 2020. Tacotron využívá autoregresivní LSTM architekturu, zatímco Glow-TTS funguje paralelně prostřednictvím konvolučních operátorů, s rychlejším výkonem GPU a bez stability problémů, které mohou doprovázet autoregresivní modely.

Výzkumníci otestovali tři efektivní systémy řeči a gestikulace během projektu: modifikovanou verzi multimodálního generátoru řeči a gestikulace publikovaného v roce 2021 několika stejnými výzkumníky na novém projektu; věnovanou a modifikovanou verzi ISG Tacotron 2; a vysoce pozměněnou verzi ISG Glow-TTS.

Pro hodnocení systémů vytvořili výzkumníci webové prostředí pro zpětnou vazbu s artikulovanými 3D lidmi, kteří mluví a pohybují se podle předem definovaných textových segmentů (obecný vzhled prostředí lze vidět na veřejné stránce projektu).

Testovací prostředí.

Testovaní byli požádáni, aby hodnotili výkon systému na základě řeči a gestikulace, pouze řeči a pouze gestikulace. Výsledky ukázaly mírné zlepšení nové verze ISG oproti starší verzi pipeline, ačkoli nový systém funguje rychleji a s menšími zdroji.

Otázka ‘Jak lidská je gestikulace?’ ukazuje, že plně integrovaný model ISG mírně převyšuje pomalejší pipeline model, zatímco modely Tacotron a Glow-TTS jsou dále za nimi.

Vložené pokrčení ramen

Model Tacotron2-ISG, nejúspěšnější z tří přístupů, prokázal určitou úroveň “subliminálního” učení souvisejícího s některými nejčastějšími frázemi v datasetu, jako je “Nevím” – navzdory nedostatku explicitních dat, která by způsobila, že generátor skutečně pokrčí rameny, výzkumníci zjistili, že generátor skutečně pokrčí rameny.

Výzkumníci poznamenávají, že velmi specifická povaha tohoto novátorského projektu nevyhnutelně znamená nedostatek obecných zdrojů, jako jsou specializované datasety, které zahrnují řeč a gestikulaci způsobem, který je vhodný pro trénování takového systému. Přesto, a navzdory průkopnickému charakteru výzkumu, považují to za slibnou a málo prozkoumanou oblast v oblasti řeči, lingvistiky a rozpoznávání gest.

Martin Anderson

Spisovatel o strojovém učení, doménový specialista na syntézu lidského obrazu. Bývalý vedoucí výzkumného obsahu ve společnosti Metaphysic.ai.
Osobní stránky: martinanderson.ai

Unite.AI

Unifying Speech and Gesture Synthesis

Jednotný přístup k řeči a gestikulaci

Architektury

Vložené pokrčení ramen

You may like