Kunstig intelligens

AI-forskere designer program til at generere lydeffekter til film og anden medie

mm

Forskere fra University of Texas San Antonio har skabt en AI-baseret applikation, der kan observere handlingerne, der finder sted i en video, og generere kunstige lydeffekter, der matcher disse handlinger. De lydeffekter, der genereres af programmet, er ifølge rapporterne så realistiske, at når menneskelige observatører blev afhørt, mente de typisk, at lydeffekterne var legitime.

Programmet, der er ansvarlig for at generere lydeffekterne, AudioFoley, blev detaljeret i en studie, der nylig blev offentliggjort i IEEE Transactions on Multimedia. Ifølge IEEE Spectrum blev AI-programmet udviklet af Jeff Provost, professor ved UT San Antonio, og Ph.D.-studerende Sanchita Ghose. Forskerne skabte programmet ved hjælp af flere maskinlæringsmodeller, der var forbundet sammen.

Den første opgave i at generere lydeffekter, der er passende for handlingerne på en skærm, var at genkende disse handlinger og tilknytte dem til lydeffekter. For at opnå dette designede forskerne to forskellige maskinlæringsmodeller og testede deres forskellige tilgange. Den første model fungerer ved at trække rammer fra videoer og analysere disse rammer for relevante funktioner som bevægelser og farver. Herefter blev en anden model anvendt til at analysere, hvordan positionen af et objekt ændrer sig over rammerne, for at trække tidsmæssig information ud. Denne tidsmæssige information bruges til at forudse de næste sandsynlige handlinger i videoen. De to modeller har forskellige metoder til at analysere handlingerne i klippet, men de bruger begge informationen i klippet til at gætte, hvilken lyd, der bedst ledsager det.

Den næste opgave er at syntetisere lyden, og dette opnås ved at matche aktiviteter/predikerede bevægelser med mulige lydeprøver. Ifølge Ghose og Prevost blev AutoFoley brugt til at generere lyd til 1000 korte klip, der viser handlinger og genstande som ild, en løbende hest, tikken af ure og regn, der falder på planter. Mens AutoFoley var mest succesfuld i at generere lyd til klip, hvor der ikke behøvede at være en perfekt match mellem handlingerne og lydene, og det havde svært ved at matche klip, hvor handlingerne skete med mere variation, var programmet alligevel i stand til at narre mange menneskelige observatører til at vælge de genererede lyde fremfor den originale lyd, der ledsagede klippet.

Prevost og Ghose rekrutterede 57 college-studerende og fik dem til at se forskellige klip. Nogle klip indeholdt den originale audio, nogle indeholdt audio genereret af AutoFoley. Da den første model blev testet, valgte cirka 73% af studenterne den syntetiserede audio som den originale audio, og de forsømte den sande lyd, der ledsagede klippet. Den anden model fungerede lidt dårligere, med kun 66% af deltagerne, der valgte den genererede audio fremfor den originale audio.

Prevost forklarede, at AutoFoley potentielt kunne bruges til at fremskynde processen med at producere film, tv og andre medieprodukter. Prevost bemærker, at en realistisk Foley-spor er vigtig for at gøre mediet engagerende og troværdigt, men at Foley-processen ofte tager en betydelig mængde tid at fuldføre. At have et automatiseret system, der kunne håndtere skabelsen af grundlæggende Foley-elementer, kunne gøre medieproduktion billigere og hurtigere.

For tiden har AutoFoley nogle bemærkelsesværdige begrænsninger. For det første, mens modellen synes at fungere godt, når den observerer begivenheder med stabile, forudsigelige bevægelser, lider den, når den forsøger at generere audio til begivenheder med variation i tid (som tordenvejr). Ud over dette kræver det også, at klassificeringsobjektet er til stede i hele klippet og ikke forlader rammen. Forskningsholdet sigter mod at adressere disse problemer med fremtidige versioner af applikationen.

Blogger og programmør med specialer i Machine Learning og Deep Learning emner. Daniel håber at hjælpe andre med at bruge AI's kraft til sociale formål.