Connect with us

Inteligență artificială

Unificarea sintezei de vorbire și gest

mm

Când am revenit în Marea Britanie după câțiva ani petrecuți în sudul Italiei, a durat ceva timp până să încetez să gesticulez în timp ce vorbeam. În Regatul Unit, susținerea discursului cu mișcări ample ale mâinilor te face să arăți ca și cum ai fi prea plin de cafeină; în Italia, ca persoană care învață limba, mi-a ajutat de fapt să fiu înțeles. Chiar și acum, în rarele ocazii în care vorbesc italiană, “mâinile sălbatice” revin în serviciu. Este aproape imposibil să vorbești italiană fără să te miști.

În ultimii ani, comunicarea sprijinită de gesturi în cultura italiană și evreiască a ajuns în atenția publică ca mai mult decât doar un truism din opera lui Martin Scorsese și din filmele lui Woody Allen de la început. În 2013, New York Times a compilat o scurtă istorie video a gesturilor italiene; academia a început să studieze propensiunile rasiale pentru gesticulare, mai degrabă decât să respingă subiectul ca pe un stereotip; și noile emoji-uri de la Unicode Consortium sunt închiderea deficitului de gesturi care vine cu comunicarea pur digitală și bazată pe text.

Abordarea unificată a vorbirii și gesticulației

Acum, o nouă cercetare de la Departamentul de Vorbire, Muzică și Auz al Institutului Regal de Tehnologie din Suedia, KTH, își propune să combineze recunoașterea vorbirii și a gesturilor într-un sistem multi-modal unificat, care ar putea crește potențialul nostru de înțelegere a comunicării bazate pe vorbire, folosind limbajul corporal ca un adjunct integrat al vorbirii, mai degrabă decât un domeniu paralel de studiu.

Imagini de pe pagina de test a proiectului suedez de vorbire/gest.

Imagini de pe pagina de test a proiectului suedez de vorbire/gest. Sursă: https://swatsw.github.io/isg_icmi21/

Cercetarea propune un nou model numit Sinteză Integrată de Vorbire și Gest (ISG) și reunește o serie de modele neuronale de ultimă generație din domeniul vorbirii și al gesturilor.

Noua abordare abandonează modelul liniar de conductă (în care informațiile despre gesturi sunt derivate secvențial din vorbire ca etapă de prelucrare secundară) pentru o abordare mai integrată, care se situează la fel de bine ca și sistemele existente, potrivit utilizatorilor finali, și care atinge un timp de sinteză mai rapid și o reducere a numărului de parametri.

Abordări liniare vs integrate.

Abordări liniare vs integrate. Sursă: https://arxiv.org/pdf/2108.11436.pdf

Noul sistem multi-modal incorporează un sintetizator de vorbire spontană și un generator de gesturi condus de vorbire audio, ambele antrenate pe baza setului de date Trinity Speech Gesture existent. Setul de date conține 244 de minute de audio și captură de corp a unui bărbat care vorbește pe diverse subiecte și gesticulează liber.

Lucrarea este o echivalentă nouă și tangențială a proiectului DurIAN, care generează expresii faciale și vorbire, mai degrabă decât gesturi și vorbire, și care se încadrează mai mult în domeniul recunoașterii și sintezei expresiilor.

Arhitecturi

Componentele de vorbire și vizuale (gesturi) ale proiectului sunt dezechilibrate în ceea ce privește datele; textul este sărac, iar gesticularea este bogată și intensivă din punct de vedere al datelor – o provocare în ceea ce privește definirea obiectivelor și a metricilor. Prin urmare, cercetătorii au evaluat sistemul în primul rând prin răspunsul uman la ieșire, mai degrabă decât prin abordări mecanice mai evidente, cum ar fi eroarea medie pătratică (MSE).

Cele două modele ISG principale au fost dezvoltate în jurul celeia de a doua iterații a proiectului de sinteză a vorbirii Tacotron al Google din 2017, și a inițiativei Glow-TTS din Coreea de Sud, publicate în 2020. Tacotron utilizează o arhitectură LSTM auto-regresivă, în timp ce Glow-TTS acționează în paralel prin operatori de convoluție, cu o performanță GPU mai rapidă și fără problemele de stabilitate care pot apărea la modelele auto-regresive.

Cercetătorii au testat trei sisteme eficiente de vorbire/gesturi în timpul proiectului: o versiune modificată a unui generator multi-modal de vorbire și gesturi publicat în 2021 de către unii dintre aceiași cercetători din noul proiect; o versiune dedicată și modificată ISG a Tacotron 2 open source; și o versiune ISG puternic modificată a Glow-TTS.

Pentru a evalua sistemele, cercetătorii au creat un mediu de feedback bazat pe web, care prezintă oameni 3D articulați care vorbesc și se mișcă la segmente de text predefinite (aspectul general al mediului poate fi văzut la pagina publică a proiectului).

Mediul de testare.

Mediul de testare.

Subiecților li s-a cerut să evalueze performanța sistemului pe baza vorbirii și a gesturilor, a vorbirii doar, și a gesturilor doar. Rezultatele au arătat o ușoară îmbunătățire a noii versiuni ISG față de vechea versiune pipeline, deși noul sistem funcționează mai rapid și cu resurse reduse.

Întrebați 'Cât de uman este gestul?', modelul ISG complet integrat se situează ușor înaintea modelului pipeline mai lent, cu modelele Tacotron și Glow mai în spate.

Întrebați ‘Cât de uman este gestul?’, modelul ISG complet integrat se situează ușor înaintea modelului pipeline mai lent, cu modelele Tacotron și Glow mai în spate.

Strânsătură încorporată

Modelul Tacotron2-ISG, cel mai de succes dintre cele trei abordări, demonstrează un nivel de “învățare subliminală” legat de unele dintre cele mai comune fraze din setul de date, cum ar fi “Nu știu” – în ciuda lipsei de date explicite care ar cauza generarea unei strânsături pentru a însoți această frază, cercetătorii au constatat că generatorul face într-adevăr o strânsătură.

Cercetătorii notează că natura specifică a acestui proiect inovator înseamnă inevitabil o lipsă de resurse generale, cum ar fi seturi de date dedicate care să incorporeze date de vorbire și gesturi într-un mod potrivit pentru antrenarea unui astfel de sistem. Cu toate acestea, și în ciuda naturii sale de avangardă, ei consideră că este o direcție promițătoare și puțin explorată în domeniul vorbirii, al lingvisticii și al recunoașterii gesturilor.

Scriitor pe machine learning, specialist în domeniul sintezei de imagini umane. Foster head of research content la Metaphysic.ai.