Trí tuệ nhân tạo

Các nhà nghiên cứu AI thiết kế chương trình để tạo hiệu ứng âm thanh cho phim và các phương tiện truyền thông khác

Published August 13, 2020

Updated April 28, 2026

Daniel Nelson

Các nhà nghiên cứu từ Đại học Texas San Antonio đã tạo ra một ứng dụng dựa trên AI có khả năng quan sát các hành động diễn ra trong video và tạo ra các hiệu ứng âm thanh nhân tạo để phù hợp với những hành động đó. Các hiệu ứng âm thanh được tạo ra bởi chương trình được cho là rất thực tế đến mức khi những người quan sát con người được hỏi, họ thường nghĩ rằng các hiệu ứng âm thanh là hợp pháp.

Chương trình chịu trách nhiệm tạo ra các hiệu ứng âm thanh, AudioFoley, được mô tả trong một nghiên cứu gần đây được công bố trên IEEE Transactions on Multimedia. Theo IEEE Spectrum, chương trình AI được phát triển bởi Jeff Provost, giáo sư tại UT San Antonio, và sinh viên tiến sĩ Sanchita Ghose. Các nhà nghiên cứu đã tạo ra chương trình bằng cách sử dụng nhiều mô hình học máy kết hợp lại.

Nhiệm vụ đầu tiên trong việc tạo ra các hiệu ứng âm thanh phù hợp với các hành động trên màn hình là nhận dạng những hành động đó và ánh xạ chúng đến các hiệu ứng âm thanh. Để thực hiện điều này, các nhà nghiên cứu đã thiết kế hai mô hình học máy khác nhau và thử nghiệm các phương pháp khác nhau. Mô hình đầu tiên hoạt động bằng cách trích xuất các khung hình từ các video nó được cung cấp và phân tích các khung hình này để tìm các tính năng liên quan như chuyển động và màu sắc. Sau đó, một mô hình thứ hai được sử dụng để phân tích cách vị trí của một đối tượng thay đổi qua các khung hình, để trích xuất thông tin thời gian. Thông tin thời gian này được sử dụng để dự đoán các hành động tiếp theo có thể xảy ra trong video. Hai mô hình có các phương pháp phân tích các hành động trong đoạn phim khác nhau, nhưng cả hai đều sử dụng thông tin chứa trong đoạn phim để đoán hiệu ứng âm thanh nào sẽ phù hợp nhất với nó.

Nhiệm vụ tiếp theo là tổng hợp âm thanh, và điều này được thực hiện bằng cách匹配 các hoạt động / dự đoán chuyển động với các mẫu âm thanh có thể. Theo Ghose và Prevost, AutoFoley đã được sử dụng để tạo ra âm thanh cho 1000 đoạn phim ngắn, có các hành động và vật phẩm như lửa, ngựa chạy, đồng hồ tick và mưa rơi trên thực vật. Mặc dù AutoFoley thành công nhất trong việc tạo ra âm thanh cho các đoạn phim không cần có sự匹配 hoàn hảo giữa các hành động và âm thanh, và nó gặp khó khăn khi匹配 các đoạn phim có các hành động xảy ra với nhiều biến thể, chương trình vẫn có thể đánh lừa nhiều người quan sát con người vào việc chọn âm thanh được tạo ra của nó hơn âm thanh ban đầu đi kèm với đoạn phim.

Prevost và Ghose đã tuyển dụng 57 sinh viên đại học và yêu cầu họ xem các đoạn phim khác nhau. Một số đoạn phim chứa âm thanh gốc, một số chứa âm thanh được tạo ra bởi AutoFoley. Khi mô hình đầu tiên được thử nghiệm, khoảng 73% sinh viên đã chọn âm thanh được tổng hợp như âm thanh gốc, bỏ qua âm thanh thực sự đi kèm với đoạn phim. Mô hình khác thực hiện hơi kém hơn, với chỉ 66% người tham gia chọn âm thanh được tạo ra hơn âm thanh gốc.

Prevost giải thích rằng AutoFoley có thể được sử dụng để đẩy nhanh quá trình sản xuất phim, truyền hình và các phương tiện truyền thông khác. Prevost lưu ý rằng một bản nhạc Foley thực tế rất quan trọng để làm cho phương tiện truyền thông trở nên hấp dẫn và đáng tin cậy, nhưng quá trình Foley thường mất nhiều thời gian để hoàn thành. Việc có một hệ thống tự động có thể xử lý việc tạo ra các yếu tố Foley cơ bản có thể làm cho việc sản xuất phương tiện truyền thông trở nên rẻ hơn và nhanh hơn.

Hiện tại, AutoFoley có một số hạn chế đáng chú ý. Thứ nhất, trong khi mô hình dường như hoạt động tốt khi quan sát các sự kiện có chuyển động ổn định và có thể dự đoán, nó gặp khó khăn khi tạo ra âm thanh cho các sự kiện có sự thay đổi theo thời gian (như cơn bão). Ngoài ra, nó cũng yêu cầu chủ thể phân loại phải có mặt trong toàn bộ đoạn phim và không rời khỏi khung hình. Đội ngũ nghiên cứu đang nhằm mục đích giải quyết những vấn đề này với các phiên bản tương lai của ứng dụng.

Daniel Nelson

Blogger và lập trình viên với chuyên môn về Machine Learning và Deep Learning topics. Daniel hy vọng giúp đỡ người khác sử dụng sức mạnh của AI cho lợi ích xã hội.

Unite.AI

Các nhà nghiên cứu AI thiết kế chương trình để tạo hiệu ứng âm thanh cho phim và các phương tiện truyền thông khác

You may like