Kecerdasan buatan

Peneliti AI Merancang Program Untuk Menghasilkan Efek Suara Untuk Film dan Media Lain

mm

Peneliti dari Universitas Texas San Antonio telah menciptakan aplikasi berbasis AI yang mampu mengamati aksi yang terjadi dalam video dan membuat efek suara buatan untuk mencocokkan aksi tersebut. Efek suara yang dihasilkan oleh program tersebut dilaporkan sangat realistis sehingga ketika pengamat manusia diminta untuk memilih, mereka biasanya mengira efek suara tersebut asli.

Program yang bertanggung jawab untuk menghasilkan efek suara, AudioFoley, dijelaskan dalam sebuah studi yang baru-baru ini diterbitkan di IEEE Transactions on Multimedia. Menurut IEEE Spectrum, program AI tersebut dikembangkan oleh Jeff Provost, profesor di UT San Antonio, dan mahasiswa S3 Sanchita Ghose. Peneliti tersebut menciptakan program tersebut dengan menggunakan beberapa model pembelajaran mesin yang digabungkan.

Tugas pertama dalam menghasilkan efek suara yang sesuai dengan aksi pada layar adalah mengenali aksi tersebut dan memetakan aksi tersebut ke efek suara. Untuk melakukan ini, peneliti tersebut merancang dua model pembelajaran mesin yang berbeda dan menguji pendekatan yang berbeda. Model pertama bekerja dengan mengekstrak bingkai dari video yang diberikan dan menganalisis bingkai tersebut untuk fitur yang relevan seperti gerakan dan warna. Setelah itu, model kedua digunakan untuk menganalisis bagaimana posisi objek berubah sepanjang bingkai, untuk mengekstrak informasi temporal. Informasi temporal ini digunakan untuk memprediksi aksi berikutnya yang mungkin terjadi dalam video. Kedua model memiliki metode yang berbeda untuk menganalisis aksi dalam klip, tetapi keduanya menggunakan informasi yang terkandung dalam klip untuk menebak efek suara yang paling sesuai.

Tugas berikutnya adalah mensintesis suara, dan ini dilakukan dengan mencocokkan aktivitas/motion yang diprediksi dengan sampel suara yang mungkin. Menurut Ghose dan Prevost, AutoFoley digunakan untuk menghasilkan suara untuk 1000 klip pendek, yang menampilkan aksi dan item seperti api, kuda yang berlari, jam yang berdetak, dan hujan yang jatuh pada tanaman. Meskipun AutoFoley paling berhasil dalam menghasilkan suara untuk klip yang tidak memerlukan kesesuaian yang sempurna antara aksi dan suara, dan memiliki kesulitan dalam mencocokkan klip yang aksi terjadi dengan variasi yang lebih besar, program tersebut masih dapat menipu banyak pengamat manusia untuk memilih suara yang dihasilkan daripada suara asli yang menyertai klip.

Prevost dan Ghose merekrut 57 mahasiswa dan meminta mereka untuk menonton klip yang berbeda. Beberapa klip berisi audio asli, beberapa berisi audio yang dihasilkan oleh AutoFoley. Ketika model pertama diuji, sekitar 73% dari mahasiswa memilih audio yang disintesis sebagai audio asli, mengabaikan suara sebenarnya yang menyertai klip. Model lainnya performa sedikit lebih buruk, dengan hanya 66% dari peserta memilih audio yang dihasilkan daripada audio asli.

Prevost menjelaskan bahwa AutoFoley dapat digunakan untuk mempercepat proses produksi film, televisi, dan media lainnya. Prevost mencatat bahwa trek Foley yang realistis sangat penting untuk membuat media yang menarik dan dapat dipercaya, tetapi proses Foley sering memakan waktu yang signifikan untuk diselesaikan. Dengan memiliki sistem otomatis yang dapat menangani pembuatan elemen Foley dasar, produksi media dapat menjadi lebih murah dan lebih cepat.

Saat ini, AutoFoley memiliki beberapa keterbatasan yang cukup mencolok. Pertama, meskipun model tersebut tampaknya berperforma dengan baik ketika mengamati peristiwa yang memiliki gerakan yang stabil dan dapat diprediksi, ia menderita ketika mencoba menghasilkan audio untuk peristiwa dengan variasi waktu (seperti badai petir). Selain itu, juga memerlukan bahwa subjek klasifikasi hadir dalam seluruh klip dan tidak meninggalkan bingkai. Tim peneliti bertujuan untuk mengatasi masalah ini dengan versi masa depan dari aplikasi.

Blogger dan programmer dengan spesialisasi di Machine Learning dan Deep Learning topik. Daniel berharap untuk membantu orang lain menggunakan kekuatan AI untuk kebaikan sosial.