Yapay Zekâ
Yapay Zeka Araştırmacıları, Filmler ve Diğer Medya İçin Ses Efektleri Üretmek İçin Program Tasarladı

Texas San Antonio Üniversitesi’nden araştırmacılar, bir videodaki eylemleri gözlemleyen ve bu eylemlere uygun yapay ses efektleri üreten bir yapay zeka tabanlı uygulama geliştirdiler. Program tarafından üretilen ses efektlerinin o kadar gerçekçi olduğu bildiriliyor ki, insan gözlemcilerin anketine katılanlar genellikle ses efektlerinin gerçek olduğunu düşündüler.
Ses efektlerini üreten program, AudioFoley, yakın zamanda IEEE Transactions on Multimedia’de yayımlanan bir çalışmada ayrıntılı olarak anlatıldı. IEEE Spectrum’a göre, yapay zeka programı, UT San Antonio’dan Jeff Provost ve doktora öğrencisi Sanchita Ghose tarafından geliştirildi. Araştırmacılar, programı birden fazla makine öğrenimi modelini birleştirerek oluşturdular.
Ekrandaki eylemlere uygun ses efektleri üretmenin ilk adımı, bu eylemleri tanımlamak ve ses efektlerine eşlemekti. Bunu başarmak için araştırmacılar iki farklı makine öğrenimi modeli tasarladılar ve farklı yaklaşımlarını test ettiler. İlk model, beslendiği videolardan kareleri çıkararak ve bu kareleri ilgili özellikler gibi hareketler ve renkler için analiz ederek çalışır. Daha sonra, bir nesnenin kareler arasında nasıl değiştiğini analiz etmek için ikinci bir model kullanıldı, böylece zaman bilgisi çıkarıldı. Bu zaman bilgisi, videodaki olası sonraki eylemleri tahmin etmek için kullanılır. İki model, klipteki eylemleri analiz etmek için farklı yöntemler kullanıyor, ancak her ikisi de klip içindeki bilgileri, kliple en iyi eşleşen sesi tahmin etmek için kullanıyor.
Ses üretmenin bir sonraki görevi, faaliyetleri / öngörülen hareketleri olası ses örnekleriyle eşleştirmektir. Ghose ve Prevost’a göre, AutoFoley, 1000 kısa klip için ses üretmek için kullanıldı ve bu kliplerde ateş, koşan bir at, tikleyen saatler ve bitkiler üzerindeki yağmur gibi eylemler ve nesneler yer aldı. AutoFoley, eylemlerle sesler arasında mükemmel bir eşleşme gerektirmeyen klipler için ses üretmede en başarılı oldu ve eylemler daha fazla varyasyonla gerçekleştiğinde klipleri eşleştirmekte zorluk yaşadı, ancak program hala birçok insan gözlemcisini, ürettiği sesleri orijinal sesin yerine seçmeye ikna edebildi.
Prevost ve Ghose, 57 üniversite öğrencisini işe aldı ve onlara farklı klipler izlettirdi. Bazı klipler orijinal sesi içeriyordu, bazıları ise AutoFoley tarafından üretilen sesi içeriyordu. İlk model test edildiğinde, öğrencilerin yaklaşık %73’ü sentezlenen sesi orijinal ses olarak seçti, kliple eşlik eden gerçek sesi görmezden geldi. Diğer model biraz daha kötü performans gösterdi, yalnızca %66’sı orijinal ses yerine üretildiği sesi seçti.
Prevost, AutoFoley’nin film, televizyon ve diğer medya türlerinin üretim sürecini hızlandırabileceğini açıkladı. Prevost, gerçekçi bir Foley izinin medyayı çekici ve inandırıcı kılmak için önemli olduğunu, ancak Foley sürecinin genellikle tamamlanması için önemli bir zaman aldığını belirtti. Temel Foley öğelerinin oluşturulmasını ele alabilecek bir otomatik sistem, medyanın üretimini daha ucuz ve daha hızlı hale getirebilir.
Şu anda, AutoFoley bazı önemli sınırlamalara sahiptir. Birincisi, model stabilli ve öngörülebilir hareketleri gözlemlediğinde iyi performans gösterir, ancak zaman içinde varyasyon gösteren olaylar için ses üretmeye çalıştığında (örneğin fırtınalar) zorluk yaşar. Ayrıca, sınıflandırma konusunun tüm klip boyunca mevcut olması ve kareyi terk etmemesi gerekir. Araştırma ekibi, bu sorunları gelecekteki uygulama sürümlerinde çözmeyi amaçlıyor.












