Umělá inteligence
Sjednocení syntézy řeči a gest

Když jsem se vrátil do Británie z několika let v jižní Itálii, trvalo mi docela dlouho, než jsem přestal gestikulovat, když jsem mluvil. Ve Spojeném království budete díky podpoře své řeči odvážnými pohyby rukou vypadat přehnaně kofeinem; v Itálii mi to jako člověku, který se učí jazyk, vlastně pomohlo být pochopenI teď, při těch vzácnějších příležitostech, kdy mluvím italsky, se „divoké ruce“ vracejí do služby. Je téměř nemožné mluvit italsky, aniž bych se pohnul.
V posledních letech komunikace podporovaná gesty v italské a židovské kultuře se dostal do povědomí veřejnosti jako více než jen trop z díla Martina Scorseseho a raných filmů Woodyho Allena. V roce 2013 New York Times sestavil a krátká video historie italských gest rukou; akademická sféra začíná spíše studovat rasové sklony k gestikulaci rukou, než aby toto téma zavrhla jako stereotyp; a nové emotikony od Unicode Consortium jsou uzavření nedostatku gesta která přichází s čistě digitální, textovou komunikací.
Jednotný přístup k řeči a gestikulaci
Teď, nový výzkum z katedry řeči, hudby a sluchu na švédském Královském technologickém institutu KTH se snaží spojit rozpoznávání řeči a gest do jednotného multimodálního systému, který by mohl potenciálně prohloubit naše chápání komunikace založené na řeči tím, že řeč těla bude spíše integrovaným doplňkem řeči než paralelním oborem studia.

Vizuály z testovací stránky švédského projektu řeč/gesta. Zdroj: https://swatsw.github.io/isg_icmi21/
Výzkum navrhuje nový model nazvaný Integrovaná syntéza řeči a gest (ISG) a spojuje řadu nejmodernějších neurálních modelů z výzkumu řeči a gest.
Nový přístup opouští lineární model potrubí (kde se informace o gestech odvozují sekvenčně z řeči jako sekundární fáze zpracování) pro integrovanější přístup, který hodnotí stejně jako stávající systémy podle koncových uživatelů a který umožňuje rychlejší syntézu a nižší počet parametrů.

Lineární vs. integrované přístupy. Zdroj: https://arxiv.org/pdf/2108.11436.pdf
Nový multimodální systém zahrnuje spontánní syntezátor převodu textu na řeč a generátor gest řízený audio řečí, oba natrénované na stávajícím gestu Trinity Speech Gesture. dataset. Dataset obsahuje 244 minut zvuku a zachycení těla muže, který mluví o různých tématech a volně gestikuluje.
Dílo je románem a tangenciálním ekvivalentem k DurIAN projekt, který generuje mimiku a řeč spíše než gesta a řeč, a který spadá spíše do oblasti rozpoznávání a syntézy výrazů.
architektury
Řečová a vizuální (gestická) složka projektu jsou datově nevyvážené; text je řídký a gestikulace je bohatá a náročná na data – problém z hlediska definování cílů a metrik. Proto výzkumníci hodnotili systém především lidskou reakcí na výstup, spíše než zjevnějšími mechanistickými přístupy, jako je střední kvadratická chyba (MSE).
Dva hlavní modely ISG byly vyvinuty kolem druhá iterace z roku 2017 Tacotron projekt end-to-end syntézy řeči a jihokorejský Glow-TTS iniciativa zveřejněná v roce 2020. Tacotron využívá autoregresivní architekturu LSTM, zatímco Glow-TTS působí paralelně prostřednictvím konvolučních operátorů, s rychlejším výkonem GPU a bez problémů se stabilitou, které mohou doprovázet autoregresivní modely.
Výzkumníci během projektu testovali tři efektivní systémy řeči a gest: upravenou verzi multimodální generace řeči a gest. zveřejněn v roce 2021 řadou stejných výzkumníků na novém projektu; vyhrazená a upravená ISG verze open source Tacotronu 2; a vysoce pozměněná ISG verze Glow-TTS.
Za účelem vyhodnocení systémů vytvořili výzkumníci webové prostředí pro zpětnou vazbu, ve kterém jsou artikulovaní 3D lidé mluvící a pohybující se v předdefinovaných textových segmentech (celkový vzhled prostředí lze vidět na veřejná stránka projektu).

Testovací prostředí.
Testované subjekty byly požádány, aby vyhodnotily výkon systému na základě řeči a gest, pouze řeči a pouze gest. Výsledky ukázaly mírné zlepšení v nové verzi ISG oproti starší verzi pipeline, i když novější systém pracuje rychleji a s omezenými zdroji.

Na otázku „Jak lidské je toto gesto?“ skončil plně integrovaný model ISG mírně před pomalejším modelem pipeline, přičemž modely založené na Tacotronu a Glow byly dále za nimi.
Vložené pokrčení ramen
Model Tacotron2-ISG, nejúspěšnější ze tří přístupů, demonstruje určitou úroveň „podprahového“ učení související s některými z nejběžnějších frází v datové sadě, jako například „Nevím“ – navzdory nedostatku explicitních dat, která by způsobila pokrčení ramen k této frázi, vědci zjistili, že generátor skutečně pokrčí rameny.
Výzkumníci poznamenávají, že velmi specifická povaha tohoto nového projektu nevyhnutelně znamená nedostatek obecných zdrojů, jako jsou specializované datové sady, které zahrnují data o řeči a gestech způsobem vhodným pro trénování takového systému. Nicméně a navzdory avantgardní povaze výzkumu jej považují za slibnou a málo prozkoumanou oblast v oblasti rozpoznávání řeči, lingvistiky a gest.