Kunstmatige intelligentie
Unificatie van spraak- en gebaarssynthese

Toen ik terugkeerde naar Groot-Brittannië na een aantal jaren in Zuid-Italië, duurde het even voordat ik stopte met gesticuleren tijdens het praten. In het VK maakt het ondersteunen van je spraak met grote handgebaren je alleen maar over-gecaffeïneerd; in Italië hielp het me, als iemand die de taal leerde, om begrepen te worden. Zelfs nu, op de minder frequente gelegenheden dat ik Italiaans spreek, komen de ‘wilde handen’ weer in actie. Het is bijna onmogelijk om Italiaans te spreken zonder te bewegen.
In recente jaren is de aandacht voor communicatie met gebaren in de Italiaanse en Joodse cultuur naar voren gekomen als meer dan alleen een trope uit het werk van Martin Scorsese en vroege Woody Allen-films. In 2013 compileerde The New York Times een korte video-geschiedenis van Italiaanse handgebaren; de academische wereld begint de raciale neiging tot handgebaar te bestuderen, in plaats van het onderwerp af te doen als een stereotype; en nieuwe emojis van het Unicode Consortium zijn het gebaar-tekort dat optreedt bij puur digitale, tekstgebaseerde communicatie aan het aanvullen.
Een geïntegreerde aanpak van spraak en gesticulatie
Nu zoekt nieuw onderzoek van de afdeling Spraak, Muziek en Gehoor van de KTH Koninklijk Technologisch Instituut in Zweden ernaar om spraak- en gebaarherkenning te combineren in een geïntegreerd, multimodaal systeem dat onze begrip van spraakgebaseerde communicatie kan vergroten door lichaamstaal te gebruiken als geïntegreerde aanvulling op spraak, in plaats van een parallelle studieveld.

Beelden van de testpagina van het Zweedse spraak/gebaarproject. Bron: https://swatsw.github.io/isg_icmi21/
Het onderzoek stelt een nieuw model voor dat Integrated Speech and Gesture (ISG) synthesiseren wordt genoemd, en brengt een aantal state-of-the-art neurale modellen uit spraak- en gebaaronderzoek samen.
De nieuwe aanpak verlaat het lineaire pijplijnmodel (waar gebaar-informatie sequentieel uit spraak wordt afgeleid als een secundaire verwerkingstage) voor een meer geïntegreerde aanpak, die even hoog scoort als bestaande systemen volgens eindgebruikers, en die een snellere synthese-tijd en een verlaagd parameter-aantal bereikt.

Lineaire vs. geïntegreerde benaderingen. Bron: https://arxiv.org/pdf/2108.11436.pdf
Het nieuwe multimodale systeem omvat een spontane tekst-naar-spraak-synthesizer en een audio-spraak-gestuurde gebaar-generator, beide getraind op de bestaande Trinity Speech Gesture dataset. De dataset bevat 244 minuten aan audio en lichaamsopnames van een man die over verschillende onderwerpen spreekt en vrij gesticuleert.
Het werk is een novum en een tangentiële equivalent van het DurIAN-project, dat gezichtsuitdrukkingen en spraak genereert, in plaats van gebaren en spraak, en dat meer valt onder het domein van expressie-herkenning en -synthese.
Architecturen
De spraak- en visuele (gebaar) componenten van het project zijn onbalans in termen van gegevens; tekst is schaars en gesticulatie is rijk en gegevens-intensief – een uitdaging bij het definiëren van doelen en metrics. Daarom evalueerden de onderzoekers het systeem voornamelijk op basis van de menselijke reactie op de output, in plaats van meer voor de hand liggende mechanistische benaderingen zoals het kwadratische foutengemiddelde (MSE).
De twee belangrijkste ISG-modellen werden ontwikkeld rond de tweede iteratie van Google’s 2017 Tacotron-eind-tot-eind-spraak-syntheseproject, en het Zuid-Koreaanse Glow-TTS-initiatief dat in 2020 werd gepubliceerd. Tacotron gebruikt een autoregressief LSTM-architectuur, terwijl Glow-TTS parallel werkt via convolutie-operatoren, met snellere GPU-prestaties en zonder de stabiliteitsproblemen die autoregressieve modellen kunnen hebben.












