Yapay Zekâ

AI Kulaklıklerle Kalabalıkta Tek Bir Kişiyi Dinlemek Mümkün

mm

Kalabalık ve gürültülü bir ortamda, arka plan gürültüsünü dışlayıp yalnızca konuşmaya çalıştığınız kişiye odaklanmayı hiç istediniz mi? Gürültü önleyici kulaklıklar, sesi boş bir sayfa haline getirmekte büyük ilerlemeler kaydettiler, ancak stiller surroundings’dan belirli sesleri filtrelemekte zorlanıyorlar. Peki, kulaklıklarınız bir kişinin sesini alıp güçlendirebilecek şekilde eğitilebilseydi, hatta odadaki diğer konuşmalara rağmen bir oda dolusu insan içinde hareket ederken bile?

Hedef Konuşma Duyma (TSH), Washington Üniversitesi’ndeki araştırmacılar tarafından geliştirilen bir AI sistemi, bu alanda ilerleme kaydediyor.

Hedef Konuşma Duyma Nasıl Çalışır

TSH’yi kullanmak için, özel olarak donatılmış kulaklıkları takan bir kişi, yalnızca dinlemek istediği kişiye birkaç saniye bakması gerekir. Bu kısa “kayıt” süresi, AI sisteminin hedef konuşmacının benzersiz ses kalıplarını öğrenmesine ve bunlara bağlanmasına olanak tanır.

Şöyle çalışır:

  1. Kullanıcı, 3-5 saniye boyunca hedef konuşmacıya doğru başını çevirirken bir düğmeye basar.
  2. Kulaklığın her iki tarafındaki mikrofonlar, konuşmacının ses dalgalarını aynı anda (16 derecelik bir hata payıyla) alır.
  3. Kulaklık, bu ses sinyalini bir yerleşik gömülü bilgisayara iletir.
  4. Makine öğrenimi yazılımı, sesi analiz eder ve konuşmacının benzersiz ses özelliklerine sahip bir model oluşturur.
  5. AI sistemi, bu modeli kullanarak, kullanıcı hareket halindeyken bile, gerçek zamanlı olarak hedef konuşmacının sesini izole eder ve güçlendirir.

Hedef konuşmacı ne kadar çok konuşursa, sistem o kadar çok eğitim verisi alır ve bu da istenen sesi daha iyi odaklanmasına ve netleştirmesine olanak tanır. Bu, “seçici duyma”ya yenilikçi bir yaklaşım sunar ve zorlu ses ortamlarında iletişimi ve erişilebilirliği geliştirir.

Shyam Gollakota, makalenin kıdemli yazarı ve Washington Üniversitesi’ndeki Paul G. Allen Bilgisayar Bilimi ve Mühendisliği Okulu’nda profesör

“Şimdi AI’yi, web tabanlı sohbet botları olarak düşünmeye eğilimlendik, ancak bu projede, AI’yi, kulaklıkları takan herkesin tercihlerine göre işitsel algısını değiştirmek için geliştiriyoruz. Cihazlarımızla, gürültülü bir ortamda birçok insanın konuşmasına rağmen, tek bir konuşmacının sesini net bir şekilde duyabilirsiniz.” – Gollakota

TSH ile AI Kulaklık Testi

TSH’yi test etmek için, araştırma ekibi 21 katılımcıyla bir çalışma gerçekleştirdi. Her bir katılımcı, TSH özellikli kulaklıkları taktı ve gürültülü bir ortamda bir hedef konuşmacı kaydetti. Sonuçlar etkileyiciydi – kullanıcılar, ortalama olarak, hedef konuşmacının sesinin netliğini, filtresiz ses akışına kıyasla neredeyse iki kat daha yüksek olarak değerlendirdi.

Bu đột phá, ekibin daha önceki “anlamsal duyma” çalışmasının üzerine kuruludur; bu çalışma, kullanıcıların ses ortamını önceden tanımlanmış ses sınıflandırmalarına göre filtrelemelerine olanak tanır. TSH, bu kavramı bir adım öteye taşıyarak, belirli bir bireyin sesini seçici olarak güçlendirmeyi sağlar.

Sonuçlar önemli, gürültülü ortamlardaki kişisel konuşmaları geliştirmekten, işitme engelliler için erişilebilirliği artırmaya kadar. Teknoloji geliştikçe, ses dünyamızla etkileşimimizi temel olarak değiştirebilir.

AI Kulaklıklerin Geliştirilmesi ve Sınırlılıkların Aşılması

Hedef Konuşma Duyma, işitsel AI’da önemli bir adım olsa da, şu anda bazı sınırlılıkları vardır:

  • Tek konuşmacı kaydı: Şu anda, TSH yalnızca bir konuşmacıya odaklanabilir. Birden fazla konuşmacıyı aynı anda kaydetmek henüz mümkün değildir.
  • Benzer ses kaynaklarından girişim: Kayıt过程inde, hedef konuşmacının sesinin geldiği yönden başka bir yüksek ses gelirse, sistem, istenen bireyin ses özelliklerini izole etmekte zorlanabilir.
  • Elle yeniden kayıt: Kullanıcı, ilk eğitimden sonra ses kalitesinden memnun değilse, konuşmacıyı yeniden kaydetmelidir.

Bu kısıtlamalara rağmen, Washington Üniversitesi ekibi, TSH’nin yeteneklerini geliştirmeye ve genişletmeye aktif olarak çalışıyor. Birincil hedeflerinden biri, teknolojiyi tüketici ürünleri gibi kulak içi kulaklıklar ve işitme cihazlarına entegre edilebilecek şekilde küçültmektir.

Araştırmacılar, işitsel AI’nin sınırlarını ilerlettikçe, potansiyel uygulamalar, dikkat dağıtıcı ofis ortamlarındaki verimliliği artırmadan, ilk müdahale ekipleri ve askeri personelin yüksek riskli durumlarındaki iletişimini netleştirmeye kadar uzanıyor. Seçici duyma geleceği parlak görünüyor ve Hedef Konuşma Duyma, bunu şekillendirmede önemli bir rol oynamaya hazırlanıyor.

Alex McFarland yapay zeka muhabiri ve yazarıdır ve yapay zekadaki son gelişmeleri araştırıyor. Birçok yapay zeka başlangıç şirketi ve dünya çapındaki yayınlarda işbirliği yaptı.