Mesterséges Intelligencia

Egységes beszéd- és gesztusszintézis

korszerűsített on December 9, 2022

Amikor visszatértem Nagy-Britanniába néhány év Dél-Olaszországból, elég sok időbe telt, amíg abbahagytam a gesztikulálást, miközben beszéltem. Az Egyesült Királyságban, ha merész kézmozdulatokkal támasztja alá beszédét, túlzottan koffeinezettnek tűnik; Olaszországban, mint valaki, aki megtanulta a nyelvet, valójában segített nekem hogy megértsék. Még most is, amikor ritkábban beszélek olaszul, a „vad kezek” újra szolgálatba állnak. Szinte lehetetlen olaszul beszélni mozgás nélkül.

Az elmúlt években a gesztusokkal támogatott kommunikáció az olasz és a zsidó kultúrában a közvélemény figyelmét több, mint Martin Scorsese munkáinak és a korai Woody Allen-filmek trópusának tekinti. 2013-ban a New York Times összeállította a rövid videótörténet olasz kézmozdulatok; az akadémia kezdi tanulmányozni a kézmozdulatokra való faji hajlamokat, ahelyett, hogy sztereotípiaként vetnék el a témát; és a Unicode Consortium új hangulatjelei a gesztushiány lezárása amely tisztán digitális, szöveges kommunikációval jár.

A beszéd és a gesztikuláció egységes megközelítése

Most, új kutatás A svéd KTH Királyi Műszaki Intézet Beszéd, Zene és Hallás Tanszékének munkatársa a beszéd- és gesztusfelismerést egy egységes, multimodális rendszerré kívánja ötvözni, amely a testbeszéd integrált eszközként történő felhasználásával potenciálisan javíthatja a beszédalapú kommunikáció megértését. a beszéd kiegészítése, nem pedig párhuzamos tanulmányi terület.

Kép a svéd beszéd/gesztus projekt tesztoldaláról. Forrás: https://swatsw.github.io/isg_icmi21/

A kutatás egy új modellt javasol, az Integrated Speech and Gesture (ISG) szintézis néven, és a beszéd- és gesztuskutatásból származó számos legkorszerűbb neurális modellt egyesít.

Az új megközelítés elhagyja a lineárist csővezeték modell (ahol a gesztusinformációt szekvenciálisan a beszédből származtatják, mint másodlagos feldolgozási szakaszt) egy integráltabb megközelítés érdekében, amely a végfelhasználók szerint a meglévő rendszerekkel azonos arányban működik, és amely gyorsabb szintézisidőt és csökkentett paraméterszámot tesz lehetővé.

Lineáris vs. integrált megközelítések. Forrás: https://arxiv.org/pdf/2108.11436.pdf

Az új multimodális rendszer tartalmaz egy spontán szöveg-beszéd szintetizátort és egy hangbeszédvezérelt gesztusgenerátort, mindkettőt a meglévő Trinity Speech Gesture-re fejlesztik. adatbázisba. Az adatkészlet 244 percnyi hang- és testfelvételt tartalmaz egy különböző témákról beszélgető és szabadon gesztikuláló férfiról.

A mű újszerű és érintőleges megfelelője a DurIAN projekt, amely arckifejezéseket és beszédet generál gesztusok és beszéd helyett, és amely inkább a kifejezésfelismerés és szintézis területére esik.

architektúrák

A projekt beszéd- és vizuális (gesztus) komponensei az adatok tekintetében nincs egyensúlyban; a szöveg ritka, a gesztikuláció pedig gazdag és adatigényes – kihívás a célok és a mérőszámok meghatározása szempontjából. Ezért a kutatók a rendszert elsősorban a kimenetre adott emberi válasz alapján értékelték, nem pedig olyan nyilvánvalóbb mechanikus megközelítéseket, mint például az átlagos négyzetes hiba (MSE).

A két fő ISG modellt a körül fejlesztették ki második iteráció a Google 2017 Tacotron végpontok közötti beszédszintézis projekt, valamint a dél-koreai Glow-TTS A Tacotron autoregresszív LSTM architektúrát használ, míg a Glow-TTS párhuzamosan működik a konvolúciós operátorokon keresztül, gyorsabb GPU teljesítménnyel és az autoregresszív modellekhez kapcsolódó stabilitási problémák nélkül.

A kutatók három hatékony beszéd/gesztusrendszert teszteltek a projekt során: egy multimodális beszéd- és gesztusgeneráció módosított változatát. közzétett 2021-ben több ugyanaz a kutató az új projekttel kapcsolatban; a nyílt forráskódú Tacotron 2 dedikált és módosított ISG verziója; és a Glow-TTS erősen módosított ISG változata.

A rendszerek értékelésére a kutatók egy webalapú visszacsatolási környezetet hoztak létre, amelyben artikulált 3D-s emberek beszélnek, és előre meghatározott szövegszegmensekre mozognak (a környezet általános megjelenése a nyilvános projektoldal).

A tesztkörnyezet.

A kísérleti alanyokat arra kérték, hogy értékeljék a rendszer teljesítményét beszéd és gesztus, csak beszéd és csak gesztus alapján. Az eredmények enyhe javulást mutattak az új ISG verzióban a régebbi csővezetékes verzióhoz képest, bár az újabb rendszer gyorsabban és kevesebb erőforrással működik.

A „Mennyire emberi ez a gesztus?” kérdésre a teljesen integrált ISG-modell valamivel megelőzi a lassabb csővezetékes modellt, a Tacotron és a Glow-alapú modellek pedig még hátrébb vannak.

Beágyazott vállrándítás

A Tacotron2-ISG modell, a három megközelítés közül a legsikeresebb, a „szubliminális” tanulás szintjét demonstrálja az adathalmaz leggyakrabban előforduló kifejezéseivel kapcsolatban, mint például a „nem tudom” – az explicit adatok hiánya ellenére. A kutatók azt találták, hogy a generátor valóban vállrándítást vált ki.

A kutatók megjegyzik, hogy ennek az új projektnek a sajátos jellege elkerülhetetlenül az általános erőforrások szűkösségét jelenti, például olyan dedikált adatkészleteket, amelyek beszéd- és gesztusadatokat tartalmaznak olyan módon, amely alkalmas egy ilyen rendszer képzésére. Ennek ellenére, a kutatás élvonalbeli jellege ellenére, ígéretesnek és kevéssé feltárt útnak tartják a beszéd-, a nyelvészet- és a gesztusfelismerés terén.

Kapcsolódó témák:képszintézis NLP kutatás Beszéd beszédgenerálás

Up Next

A neurális hálózatok segítenek eltávolítani a felhőket a légifelvételekről

Ne hagyd ki

AI Soulmate Recommender rendszer, amely csak képeken alapul

Martin Anderson

Író a gépi tanulásról, a mesterséges intelligenciáról és a big data-ról.
Személyes oldal: Martinanderson.ai
Kapcsolat [e-mail védett]
Twitter: @manders_ai