Intelligenza artificiale

Ricercatori di Intelligenza Artificiale Progettano un Programma per Generare Effetti Sonori per Film e Altri Media

Published August 13, 2020

Updated April 28, 2026

Daniel Nelson

I ricercatori dell’Università del Texas di San Antonio hanno creato un’applicazione basata sull’intelligenza artificiale in grado di osservare le azioni che si svolgono in un video e creare effetti sonori artificiali per corrispondere a quelle azioni. Gli effetti sonori generati dal programma sono così realistici che, quando sono stati sottoposti a osservatori umani, questi hanno generalmente pensato che gli effetti sonori fossero legittimi.

Il programma responsabile della generazione degli effetti sonori, AudioFoley, è stato descritto in uno studio recentemente pubblicato su IEEE Transactions on Multimedia. Secondo IEEE Spectrum, il programma di intelligenza artificiale è stato sviluppato da Jeff Provost, professore alla UT San Antonio, e dalla studentessa di dottorato Sanchita Ghose. I ricercatori hanno creato il programma utilizzando più modelli di apprendimento automatico uniti insieme.

Il primo compito nella generazione di effetti sonori appropriati alle azioni sullo schermo è stato riconoscere quelle azioni e mapparle agli effetti sonori. Per realizzare ciò, i ricercatori hanno progettato due diversi modelli di apprendimento automatico e hanno testato i loro diversi approcci. Il primo modello funziona estraendo frame dai video che riceve e analizzandoli per caratteristiche rilevanti come movimenti e colori. Successivamente, un secondo modello è stato utilizzato per analizzare come la posizione di un oggetto cambi tra i frame, per estrarre informazioni temporali. Queste informazioni temporali vengono utilizzate per anticipare le prossime azioni probabili nel video. I due modelli hanno metodi diversi per analizzare le azioni nel clip, ma entrambi utilizzano le informazioni contenute nel clip per indovinare quale suono sarebbe meglio accompagnare.

Il prossimo compito è sintetizzare il suono, e ciò viene realizzato abbinando attività/motion previste a possibili campioni di suono. Secondo Ghose e Prevost, AutoFoley è stato utilizzato per generare suoni per 1000 brevi clip, che presentavano azioni e oggetti come un incendio, un cavallo che corre, orologi a pendolo e pioggia che cade su piante. Sebbene AutoFoley sia stato più efficace nella creazione di suoni per clip in cui non era necessario un perfetto abbinamento tra azioni e suoni, e abbia avuto difficoltà ad abbinare clip in cui le azioni si verificavano con più variazioni, il programma è comunque riuscito a ingannare molti osservatori umani facendogli scegliere i suoni generati rispetto al suono originale che accompagnava il clip.

Prevost e Ghose hanno reclutato 57 studenti universitari e li hanno fatti guardare diversi clip. Alcuni clip contenevano l’audio originale, alcuni contenevano audio generato da AutoFoley. Quando il primo modello è stato testato, circa il 73% degli studenti ha selezionato l’audio sintetizzato come audio originale, trascurando il vero suono che accompagnava il clip. L’altro modello ha performato leggermente peggio, con solo il 66% dei partecipanti che hanno selezionato l’audio generato rispetto all’audio originale.

Prevost ha spiegato che AutoFoley potrebbe potenzialmente essere utilizzato per accelerare il processo di produzione di film, televisione e altri pezzi di media. Prevost nota che una traccia Foley realistica è importante per rendere i media coinvolgenti e credibili, ma che il processo Foley spesso richiede molto tempo per essere completato. Avere un sistema automatizzato che potrebbe gestire la creazione di elementi Foley di base potrebbe rendere la produzione di media più economica e veloce.

Attualmente, AutoFoley ha alcune limitazioni significative. In primo luogo, mentre il modello sembra performare bene nell’osservazione di eventi con movimenti stabili e prevedibili, soffre quando tenta di generare audio per eventi con variazioni nel tempo (come tempeste). Oltre a ciò, richiede anche che l’oggetto di classificazione sia presente in tutto il clip e non lasci il frame. Il team di ricerca sta cercando di affrontare questi problemi con future versioni dell’applicazione.

Daniel Nelson

Blogger e programmatore con specializzazioni in Machine Learning e Deep Learning argomenti. Daniel spera di aiutare gli altri a utilizzare il potere dell'AI per il bene sociale.

Unite.AI

Ricercatori di Intelligenza Artificiale Progettano un Programma per Generare Effetti Sonori per Film e Altri Media

You may like