Verbind je met ons

Artificial Intelligence

Verenigende spraak- en gebarensynthese

mm

Toen ik na enkele jaren in Zuid-Italië terugkwam in Groot-Brittannië, duurde het een hele tijd voordat ik ophield met gebaren terwijl ik praatte. In het VK zorgt het ondersteunen van je spraak met gedurfde handbewegingen ervoor dat je er gewoon te veel cafeïne uit ziet; in Italië, als iemand die de taal leert, heeft het me echt geholpen om begrepen te wordenZelfs nu, op de zeldzamere momenten dat ik Italiaans spreek, komen de 'wilde handen' weer in actie. Het is bijna onmogelijk om Italiaans te spreken zonder te verhuizen.

In de afgelopen jaren is communicatie met gebaren ondersteund in de Italiaanse en joodse cultuur is onder de publieke aandacht gekomen als meer dan alleen een trope uit het werk van Martin Scorsese en vroege Woody Allen-films. In 2013 stelde de New York Times een korte videogeschiedenis van Italiaanse handgebaren; de academische wereld begint raciale neigingen voor handgebaren te bestuderen, in plaats van het onderwerp af te doen als een stereotype; en nieuwe emoji's van het Unicode Consortium zijn het gebaartekort dichten dat komt met puur digitale, op tekst gebaseerde communicatie.

Een uniforme benadering van spraak en gebaren

Nu, nieuw onderzoek van de afdeling Spraak, Muziek en Gehoor van het Koninklijk Technisch Instituut KTH in Zweden probeert spraak- en gebarenherkenning te combineren in een uniform, multimodaal systeem dat mogelijk ons ​​begrip van spraakgebaseerde communicatie kan vergroten door lichaamstaal te gebruiken als een geïntegreerde aanvulling op spraak, in plaats van een parallel studiegebied.

Beelden van de testpagina van het Zweedse spraak-/gebarenproject. Bron: https://swatsw.github.io/isg_icmi21/

Beelden van de testpagina van het Zweedse spraak-/gebarenproject. Bron: https://swatsw.github.io/isg_icmi21/

Het onderzoek stelt een nieuw model voor, Integrated Speech and Gesture (ISG) synthese genaamd, en brengt een aantal state-of-the-art neurale modellen uit onderzoek naar spraak en gebaren samen.

De nieuwe benadering verlaat het lineaire pijplijn model (waarbij informatie over gebaren achtereenvolgens wordt afgeleid uit spraak als secundaire verwerkingsfase) voor een meer geïntegreerde benadering, die volgens eindgebruikers gelijk scoort met bestaande systemen, en die een snellere synthesetijd en minder parameters oplevert.

Lineaire versus geïntegreerde benaderingen. Bron: https://arxiv.org/pdf/2108.11436.pdf

Lineaire versus geïntegreerde benaderingen. Bron: https://arxiv.org/pdf/2108.11436.pdf

Het nieuwe multimodale systeem bevat een spontane tekst-naar-spraak-synthesizer en een audio-spraakgestuurde gebarengenerator, beide getraind op de bestaande Trinity Speech Gesture dataset. De dataset bevat 244 minuten audio en body capture van een man die over verschillende onderwerpen praat en vrijuit gebaart.

Het werk is een nieuw en tangentieel equivalent van de DurIAN project, dat gezichtsuitdrukkingen en spraak genereert in plaats van gebaren en spraak, en dat meer op het gebied van uitdrukkingsherkenning en -synthese valt.

Architecturen

De spraak- en visuele (gebaar)componenten van het project zijn qua data onevenwichtig; tekst is schaars en gebaren zijn rijk en data-intensief - een uitdaging in termen van het definiëren van doelen en statistieken. Daarom evalueerden de onderzoekers het systeem voornamelijk op basis van de menselijke reactie op de uitvoer, in plaats van meer voor de hand liggende mechanistische benaderingen zoals de gemiddelde kwadratische fout (MSE).

De twee belangrijkste ISG-modellen zijn ontwikkeld rond de tweede iteratie van Google's 2017 Tacotron end-to-end spraaksyntheseproject en het Zuid-Koreaanse Glow-TTS initiatief gepubliceerd in 2020. Tacotron maakt gebruik van een autoregressieve LSTM-architectuur, terwijl Glow-TTS parallel werkt via convolutie-operators, met snellere GPU-prestaties en zonder de stabiliteitsproblemen die autoregressieve modellen kunnen veroorzaken.

De onderzoekers testten tijdens het project drie effectieve spraak-/gebarensystemen: een aangepaste versie van een multimodale spraak- en gebarengeneratie gepubliceerde in 2021 door een aantal dezelfde onderzoekers op het nieuwe project; een speciale en aangepaste ISG-versie van de open source Tacotron 2; en een sterk gewijzigde ISG-versie van Glow-TTS.

Om de systemen te evalueren, creëerden de onderzoekers een webgebaseerde feedbackomgeving met gearticuleerde 3D-mensen die spreken en zich verplaatsen naar vooraf gedefinieerde tekstsegmenten (het algemene uiterlijk van de omgeving is te zien op de openbare projectpagina).

De testomgeving.

De testomgeving.

Proefpersonen werd gevraagd de systeemprestaties te beoordelen op basis van spraak en gebaren, alleen spraak en alleen gebaren. De resultaten toonden een lichte verbetering in de nieuwe ISG-versie ten opzichte van de oudere pijplijnversie, hoewel het nieuwere systeem sneller en met minder middelen werkt.

Gevraagd 'Hoe menselijk is het gebaar?', eindigt het volledig geïntegreerde ISG-model iets voor op het langzamere pijplijnmodel, met de op Tacotron en Glow gebaseerde modellen verder achterop.

Op de vraag 'Hoe menselijk is het gebaar?' scoort het volledig geïntegreerde ISG-model iets beter dan het langzamere pijplijnmodel, terwijl de op Tacotron en Glow gebaseerde modellen verder achterblijven.

Ingesloten schouderophalen

Het Tacotron2-ISG-model, de meest succesvolle van de drie benaderingen, laat een niveau van 'subliminaal' leren zien dat verband houdt met enkele van de meest voorkomende zinnen in de dataset, zoals 'ik weet het niet'. Ondanks het ontbreken van expliciete gegevens die ertoe zouden leiden dat er een schouderophaling zou plaatsvinden bij deze zin, ontdekten de onderzoekers dat de generator inderdaad schouderophalingen uitvoert.

De onderzoekers merken op dat de zeer specifieke aard van dit nieuwe project onvermijdelijk een schaarste aan algemene bronnen met zich meebrengt, zoals specifieke datasets die spraak- en gebarendata verwerken op een manier die geschikt is voor het trainen van een dergelijk systeem. Desondanks beschouwen ze het, ondanks het vooruitstrevende karakter van het onderzoek, als een veelbelovende en weinig onderzochte onderzoeksrichting binnen spraak-, taal- en gebarenherkenning.

 

Schrijver over machine learning, domeinspecialist in menselijke beeldsynthese. Voormalig hoofd van onderzoeksinhoud bij Metaphysic.ai.
Persoonlijke site: martinanderson.ai
Contact: [e-mail beveiligd]
Twitter: @manders_ai