Artificiell intelligens

AI-forskare utformar program för att generera ljud-effekter för filmer och andra medier

mm

Forskare från University of Texas San Antonio har skapat ett AI-baserat program som kan observera handlingen i en video och skapa artificiella ljud-effekter som matchar dessa handlingar. De ljud-effekter som genereras av programmet är enligt uppgift så realistiska att när mänskliga observatörer tillfrågades, trodde de vanligtvis att ljud-effekterna var äkta.

Programmet som ansvarar för att generera ljud-effekterna, AudioFoley, beskrevs i en studie som nyligen publicerades i IEEE Transactions on Multimedia. Enligt IEEE Spectrum utvecklades AI-programmet av Jeff Provost, professor vid UT San Antonio, och Ph.D.-studenten Sanchita Ghose. Forskarna skapade programmet med hjälp av flera maskinlärningsmodeller som kopplades samman.

Det första steget i att generera ljud-effekter som är lämpliga för handlingen på en skärm var att känna igen dessa handlingar och koppla dem till ljud-effekter. För att uppnå detta utformade forskarna två olika maskinlärningsmodeller och testade deras olika tillvägagångssätt. Den första modellen fungerar genom att extrahera ramar från de videor den matas med och analysera dessa ramar för relevanta funktioner som rörelser och färger. Därefter användes en andra modell för att analysera hur en objekts position ändras över ramarna, för att extrahera tidsinformation. Denna tidsinformation används för att förutsäga de nästa troliga handlingarna i videon. De två modellerna har olika metoder för att analysera handlingarna i klippet, men de använder båda informationen i klippet för att gissa vilket ljud som bäst skulle åtfölja det.

Nästa uppgift är att syntetisera ljudet, och detta uppnås genom att matcha aktiviteter/predicerade rörelser till möjliga ljudprover. Enligt Ghose och Prevost användes AutoFoley för att generera ljud för 1000 korta klipp, som visar handlingar och föremål som en eld, en springande häst, tickande klockor och regn som faller på växter. Medan AutoFoley var mest framgångsrik i att skapa ljud för klipp där det inte behövdes en perfekt match mellan handlingarna och ljuden, och det hade svårt att matcha klipp där handlingar skedde med mer variation, kunde programmet fortfarande lura många mänskliga observatörer att välja de genererade ljuden istället för det ursprungliga ljudet som åtföljde klippet.

Prevost och Ghose rekryterade 57 college-studenter och lät dem titta på olika klipp. Vissa klipp innehöll det ursprungliga ljudet, medan andra innehöll ljud genererat av AutoFoley. När den första modellen testades valde cirka 73% av studenterna det syntetiserade ljudet som det ursprungliga ljudet, och försummade det riktiga ljudet som åtföljde klippet. Den andra modellen fungerade något sämre, med endast 66% av deltagarna som valde det genererade ljudet istället för det ursprungliga ljudet.

Prevost förklarade att AutoFoley potentiellt kunde användas för att påskynda processen att producera filmer, TV och andra medieprodukter. Prevost påpekar att en realistisk Foley-spår är viktig för att göra media engagerande och trovärdig, men att Foley-processen ofta tar en betydande tid att slutföra. Att ha ett automatiserat system som kunde hantera skapandet av grundläggande Foley-element kunde göra media-produktion billigare och snabbare.

För närvarande har AutoFoley några betydande begränsningar. För det första, medan modellen verkar fungera bra när den observerar händelser med stabila, förutsägbara rörelser, lider den när den försöker generera ljud för händelser med variation i tid (som åskväder). Utöver detta kräver det också att klassificeringsämnet är närvarande i hela klippet och inte lämnar ramen. Forskningsgruppen syftar till att åtgärda dessa problem med framtida versioner av programmet.

Blogger och programmerare med specialomrÄden inom Machine Learning och Deep Learning Àmnen. Daniel hoppas pÄ att hjÀlpa andra att anvÀnda kraften frÄn AI för socialt vÀl.