Mesterséges Intelligencia
Egységes beszéd- és gesztusszintézis
Amikor visszatértem Nagy-Britanniába néhány év Dél-Olaszországból, elég sok időbe telt, amíg abbahagytam a gesztikulálást, miközben beszéltem. Az Egyesült Királyságban, ha merész kézmozdulatokkal támasztja alá beszédét, túlzottan koffeinezettnek tűnik; Olaszországban, mint valaki, aki megtanulta a nyelvet, valójában segített nekem hogy megértsék. Még most is, amikor ritkábban beszélek olaszul, a „vad kezek” újra szolgálatba állnak. Szinte lehetetlen olaszul beszélni mozgás nélkül.
Az elmúlt években a gesztusokkal támogatott kommunikáció az olasz és a zsidó kultúrában a közvélemény figyelmét több, mint Martin Scorsese munkáinak és a korai Woody Allen-filmek trópusának tekinti. 2013-ban a New York Times összeállította a rövid videótörténet olasz kézmozdulatok; az akadémia kezdi tanulmányozni a kézmozdulatokra való faji hajlamokat, ahelyett, hogy sztereotípiaként vetnék el a témát; és a Unicode Consortium új hangulatjelei a gesztushiány lezárása amely tisztán digitális, szöveges kommunikációval jár.
A beszéd és a gesztikuláció egységes megközelítése
Most, új kutatás A svéd KTH Királyi Műszaki Intézet Beszéd, Zene és Hallás Tanszékének munkatársa a beszéd- és gesztusfelismerést egy egységes, multimodális rendszerré kívánja ötvözni, amely a testbeszéd integrált eszközként történő felhasználásával potenciálisan javíthatja a beszédalapú kommunikáció megértését. a beszéd kiegészítése, nem pedig párhuzamos tanulmányi terület.
A kutatás egy új modellt javasol, az Integrated Speech and Gesture (ISG) szintézis néven, és a beszéd- és gesztuskutatásból származó számos legkorszerűbb neurális modellt egyesít.
Az új megközelítés elhagyja a lineárist csővezeték modell (ahol a gesztusinformációt szekvenciálisan a beszédből származtatják, mint másodlagos feldolgozási szakaszt) egy integráltabb megközelítés érdekében, amely a végfelhasználók szerint a meglévő rendszerekkel azonos arányban működik, és amely gyorsabb szintézisidőt és csökkentett paraméterszámot tesz lehetővé.
Az új multimodális rendszer tartalmaz egy spontán szöveg-beszéd szintetizátort és egy hangbeszédvezérelt gesztusgenerátort, mindkettőt a meglévő Trinity Speech Gesture-re fejlesztik. adatbázisba. Az adatkészlet 244 percnyi hang- és testfelvételt tartalmaz egy különböző témákról beszélgető és szabadon gesztikuláló férfiról.
A mű újszerű és érintőleges megfelelője a DurIAN projekt, amely arckifejezéseket és beszédet generál gesztusok és beszéd helyett, és amely inkább a kifejezésfelismerés és szintézis területére esik.
architektúrák
A projekt beszéd- és vizuális (gesztus) komponensei az adatok tekintetében nincs egyensúlyban; a szöveg ritka, a gesztikuláció pedig gazdag és adatigényes – kihívás a célok és a mérőszámok meghatározása szempontjából. Ezért a kutatók a rendszert elsősorban a kimenetre adott emberi válasz alapján értékelték, nem pedig olyan nyilvánvalóbb mechanikus megközelítéseket, mint például az átlagos négyzetes hiba (MSE).
A két fő ISG modellt a körül fejlesztették ki második iteráció a Google 2017 Tacotron végpontok közötti beszédszintézis projekt, valamint a dél-koreai Glow-TTS A Tacotron autoregresszív LSTM architektúrát használ, míg a Glow-TTS párhuzamosan működik a konvolúciós operátorokon keresztül, gyorsabb GPU teljesítménnyel és az autoregresszív modellekhez kapcsolódó stabilitási problémák nélkül.
A kutatók három hatékony beszéd/gesztusrendszert teszteltek a projekt során: egy multimodális beszéd- és gesztusgeneráció módosított változatát. közzétett 2021-ben több ugyanaz a kutató az új projekttel kapcsolatban; a nyílt forráskódú Tacotron 2 dedikált és módosított ISG verziója; és a Glow-TTS erősen módosított ISG változata.
A rendszerek értékelésére a kutatók egy webalapú visszacsatolási környezetet hoztak létre, amelyben artikulált 3D-s emberek beszélnek, és előre meghatározott szövegszegmensekre mozognak (a környezet általános megjelenése a nyilvános projektoldal).
A kísérleti alanyokat arra kérték, hogy értékeljék a rendszer teljesítményét beszéd és gesztus, csak beszéd és csak gesztus alapján. Az eredmények enyhe javulást mutattak az új ISG verzióban a régebbi csővezetékes verzióhoz képest, bár az újabb rendszer gyorsabban és kevesebb erőforrással működik.
Beágyazott vállrándítás
A Tacotron2-ISG modell, a három megközelítés közül a legsikeresebb, a „szubliminális” tanulás szintjét demonstrálja az adathalmaz leggyakrabban előforduló kifejezéseivel kapcsolatban, mint például a „nem tudom” – az explicit adatok hiánya ellenére. A kutatók azt találták, hogy a generátor valóban vállrándítást vált ki.
A kutatók megjegyzik, hogy ennek az új projektnek a sajátos jellege elkerülhetetlenül az általános erőforrások szűkösségét jelenti, például olyan dedikált adatkészleteket, amelyek beszéd- és gesztusadatokat tartalmaznak olyan módon, amely alkalmas egy ilyen rendszer képzésére. Ennek ellenére, a kutatás élvonalbeli jellege ellenére, ígéretesnek és kevéssé feltárt útnak tartják a beszéd-, a nyelvészet- és a gesztusfelismerés terén.