Tekoäly

Tekoälytutkijat suunnittelivat ohjelman äänitehosteiden luomiseen elokuviin ja muihin medioihin

Published August 13, 2020

Updated April 28, 2026

Daniel Nelson

Texasin San Antonion yliopiston tutkijat ovat luoneet tekoälypohjaisen sovelluksen, joka pystyy seuraamaan videossa tapahtuvia toimia ja luomaan niiden mukaisia äänitehosteita. Ohjelmalla luodut äänitehosteet ovat niin realistisia, että kun ihmiset kyseltiin, he usein luulivat äänitehosteita aidoiksi. Äänitehosteiden luomiseen vastaava ohjelma, AudioFoley, on kuvattu tutkimuksessa, joka on julkaistu IEEE Transactions on Multimedian sivuilla. IEEE Spectrumin mukaan tekoälyohjelman kehittivät Jeff Provost, UT San Antonion professori, ja Sanchita Ghose, joka on jatko-opiskelija. Tutkijat loivat ohjelman yhdistämällä useita koneoppimismalleja. Ensimmäinen tehtävä äänitehosteiden luomisessa oli toimien tunnistaminen ja niiden kytkeminen äänitehosteisiin. Tätä varten tutkijat suunnittelivat kaksi erilaista koneoppimismallia ja testasivat eri lähestymistapoja. Ensimmäinen malli toimii siten, että se poistaa kehysten videosta ja analysoi niistä merkityksellisiä piirteitä, kuten liikkeitä ja värejä. Tämän jälkeen toinen malli analysoi, miten objektin sijainti muuttuu kehysten aikana, jotta voidaan poistaa aikaisempi tieto. Tämä aikaisempi tieto käytetään seuraavien toimien ennustamiseen videossa. Molemmat mallit analysoivat toimia eri tavoilla, mutta ne käyttävät kummassakin tapauksessa videossa olevaa tietoa arvaamaan, mikä ääni sopisi parhaiten siihen. Seuraava tehtävä on äänen syntetisointi, ja se tapahtuu siten, että toimia/prediktioita verrataan mahdollisiin ääninäytteisiin. Ghosen ja Prevostin mukaan AutoFoleyä käytettiin äänen luomiseen 1000 lyhyelle videolle, joissa oli toimia ja esineitä, kuten tulen, juoksevan hevosen, tikittäviä kelloja ja sadetta kasveille. Vaikka AutoFoley oli enimmäkseen onnistunut luomaan äänet klippeihin, joissa ei tarvinnut olla täydellistä vastaavuutta toimien ja äänien välillä, se kärsi klippejä, joissa toimia tapahtui enemmän vaihtelua, ohjelma pystyi kuitenkin usein hämäämään ihmisiä valitsemaan sen luomat äänet alkuperäisen äänen sijaan. Prevost ja Ghose palkkasivat 57 yliopiston opiskelijaa katsomaan eri klippejä. Joissakin klippeissä oli alkuperäinen ääni, joissakin taas AutoFoleyn luoma ääni. Kun ensimmäistä mallia testattiin, noin 73 % opiskelijoista valitsi syntetisoidun äänen alkuperäiseksi ääneksi, jättäen huomioimatta alkuperäisen äänen, joka oli klipissä. Toinen malli suoritti hieman huonommin, ja vain 66 % osallistujista valitsi luodun äänen alkuperäisen äänen sijaan. Prevost selitti, että AutoFoley voidaan potentiaalisesti käyttää nopeuttamaan elokuvien, televisio-ohjelmien ja muiden median tuottamista. Prevost toteaa, että realistinen Foley-rata on tärkeä median tekemiseksi viihdyttäväksi ja uskottavaksi, mutta Foley-prosessi kestää usein paljon aikaa. Automaattinen järjestelmä, joka voisi käsitellä perustason Foley-elementtien luomisen, voisi tehdä median tuottamisesta halvemman ja nopeamman. Tällä hetkellä AutoFoleyllä on joitakin merkittäviä rajoituksia. Ensinnäkin, vaikka malli näyttää suorittavan hyvin, kun se havainnoi tapahtumia, joissa on vakaat ja ennustettavat liikkeet, se kärsii, kun yritetään luoda ääniä tapahtumille, joissa on ajan vaihtelua (kuten ukkosia). Lisäksi se edellyttää, että luokitteluaine on koko ajan klipissä eikä poistu ruudusta. Tutkimusryhmä pyrkii ratkaisemaan nämä ongelmat tulevissa sovelluksen versioissa.

Daniel Nelson

Blogger ja ohjelmoija, jolla on erityisalat Machine Learning ja Deep Learning -aiheissa. Daniel toivoo pystyvänsä auttamaan muita käyttämään tekoälyn voimaa sosiaaliseen hyvään.

Unite.AI

Tekoälytutkijat suunnittelivat ohjelman äänitehosteiden luomiseen elokuviin ja muihin medioihin

You may like