Tekoäly
Yhdistäminen puheen ja elekielen synteesiin

Kun palasin Britanniaan useamman vuoden jälkeen Etelä-Italiasta, meni jonkin aikaa, ennen kuin lopetin elehtimisen puhuessa. Isossa-Britanniassa puheen tukeminen rohkeilla kädenliikkeillä tekee sinusta vain yli-kaiffinoidun; Italiassa, jossa olen opiskellut kieltä, se auttoi minua tulemaan ymmärretyksi. Edelleen, harvoissa tilanteissa, joissa puhun italiaksi, “villit kädet” tulevat jälleen palvelukseen. On melkein mahdotonta puhua italiaksi ilman liikettä.
Viime vuosina eleiden tukema viestintä italialaisessa ja juutalaisessa kulttuurissa on tullut julkisuuteen enemmän kuin vain Martin Scorsesen ja varhaisen Woody Allenin elokuvien klisee. Vuonna 2013 New York Times kokosi lyhyen videon historian italialaisista kädenliikkeistä; akatemia on alkanut tutkia rotuominaisuuksia kädenliikkeiden suhteen, eikä heitä enää hylätä stereotyyppinä; ja uudet Unicoden konsortion emoticonit pääsevät kiinni eleiden puutteesta, joka liittyy puhtaasti digitaaliseen, tekstipohjaiseen viestintään.
Yhdistetty lähestymistapa puheen ja eleiden synteesiin
Nyt, uudet tutkimukset Ruotsin KTH Royal Institute of Technologyn puheen, musiikin ja kuulon osastolta pyrkivät yhdistämään puheen ja eleiden tunnistamisen yhdistetyksi, monitilaksi järjestelmäksi, joka voisi potentiaalisesti lisätä ymmärrystämme puhepohjaisesta viestinnästä käyttämällä kehonkieltä integroiduksi apuvälineeksi puheen sijaan, eikä rinnakkaiseksi tutkimusalueeksi.

Kuvat ruotsalaisen puhe/eleprojektin testisivulta. Source: https://swatsw.github.io/isg_icmi21/
Tutkimus ehdottaa uutta mallia, jota kutsutaan integroiduksi puheen ja eleiden (ISG) synteesiksi, ja se yhdistää useita valmiita neuroverkkomalleja puheen ja eleiden tutkimuksesta.
Uusi lähestymistapa hylkää lineaarisen putkipohjaisen mallin (jossa eleiden tieto johdetaan peräkkäin puheesta toissijaisena prosessointivaiheena) ja ottaa käyttöön enemmän integroidun lähestymistavan, joka on yhtä hyvä kuin olemassa olevat järjestelmät loppukäyttäjien mukaan, ja joka saavuttaa nopeamman synteesiajan ja vähentää parametrilaskua.

Lineaariset vs. integroidut lähestymistavat. Source: https://arxiv.org/pdf/2108.11436.pdf
Uusi monitilainen järjestelmä sisältää spontaanin teksti-puhe-synteesin ja ääni-puhe-ohjatun eleen generoijan, jotka molemmat on koulutettu olemassa olevalla Trinity Speech Gesture -aineistolla. Aineistossa on 244 minuuttia äänitallennetta ja kehonliikkeen tallennetta, joissa mies puhuu eri aiheista ja elehtii vapaasti.
Työ on uudenlainen ja poikkitieteellinen vastine DurIAN-projektille, joka luo kasvojen ilmeitä ja puhetta, eikä eleitä ja puhetta, ja joka kuuluu enemmän ilmeiden tunnistamisen ja synteesin alueeseen.
Arkkitehtuuri
Puheen ja visuaalisen (eleen) osat projekti ovat epätasapainossa tietojen suhteen; teksti on niukkaa ja eleet ovat runsaita ja tietopohjaisia – haaste tavoitteiden ja mittareiden määrittelyssä. Siksi tutkijat arvioivat järjestelmää pääasiassa ihmisten vastauksilla tulosteeseen, eikä niinkään mekanistisilla lähestymistavoilla, kuten keskivirheen (MSE) avulla.
Kaksi pääasiallista ISG-mallia kehitettiin Googleen vuoden 2017 Tacotron-puheensynteesiprojektin toisen iteroinnin ympärille, ja Etelä-Korean Glow-TTS-aloitetta, joka julkaistiin vuonna 2020. Tacotron käyttää autoregressiivista LSTM-arkkitehtuuria, kun taas Glow-TTS toimii rinnakkain konvoluutio-operaattoreiden avulla, nopeamman GPU-suorituskyvyn ja ilman autoregressiivisten mallien aiheuttamia vakausongelmia.
Tutkijat testasivat kolmea tehokasta puhe/elejärjestelmää projektin aikana: muokatun version monitilaisesta puheen ja eleen generoimisesta julkaistu vuonna 2021 usealla samalla tutkijalla uudessa projektissa; omistetun ja muokatun ISG-version avoimen lähdekoodin Tacotron 2:sta; ja voimakkaasti muutetun ISG-version Glow-TTS:stä.
Järjestelmien arvioimiseksi tutkijat loivat web-pohjaisen palauteympäristön, jossa on articuloituja 3D-hahmoja, jotka puhuvat ja liikkuvat ennalta määritettyihin tekstikohtiin (ympäristön yleinen ulkonäkö voidaan nähdä julkisella projekti sivulla).

Testiympäristö.
Koehenkilöitä pyydettiin arvioimaan järjestelmän suorituskykyä puheen ja eleen, puheen ainoastaan ja eleen ainoastaan perusteella. Tulokset osoittivat lievää parantumista uudessa ISG-versiossa vanhempaan putkipohjaiseen malliin verrattuna, vaikka uudempi järjestelmä toimii nopeammin ja vähemmän resursseja käyttäen.

Kun kysyttiin ‘Kuinka inhimillinen on ele?’, täysin integroitu ISG-malli sijoittuu hieman edelleen hitaampaa putkipohjaista mallia, ja Tacotron- ja Glow-pohjaiset mallit ovat vielä taemmalla.
Upotettu olkakääntö
Tacotron2-ISG-malli, joka on menestyksekkäin lähestymistapa, osoittaa tietyn tason “alitajuisen” oppimista joillekin yleisimmistä lauseista aineistossa, kuten “En tiedä” – vaikka aineistossa ei ole eksplisiittistä tietoa, joka aiheuttaisi sen, että se generoi olkakäännön tähän lauseeseen, tutkijat havaitsivat, että generoija tekee kuitenkin olkakäännön.
Tutkijat toteavat, että tämän uuden tutkimuksen erittäin spesifinen luonne tarkoittaa, että yleisiä resursseja, kuten omistettuja aineistoja, joissa on puheen ja eleiden tietoja tavalla, joka soveltuu tällaisen järjestelmän kouluttamiseen, on niukasti. Vaikka tutkimus on uranuurtavaa, he pitävät sitä lupaavana ja vähän tutkituna alueena puheessa, kielitieteessä ja eleiden tunnistamisessa.












