Bizimle iletişime geçin

Yapay Zeka

AI Kulaklıklar Kalabalıktaki Bir Kişiyi Dinlemenize Olanak Sağlıyor

mm

Kalabalık, gürültülü bir ortamda, arka plandaki tüm konuşmaları bir kenara bırakıp yalnızca dinlemeye çalıştığınız kişiye odaklanmayı hiç istediniz mi? Gürültü önleyici kulaklıklar işitsel boş bir sayfa oluşturma konusunda büyük ilerlemeler kaydetmiş olsa da, kullanıcının çevresinden gelen belirli seslerin filtrelenmesine izin vermekte hala zorlanıyorlar. Peki ya kulaklıklarınız, diğer konuşmalarla dolu bir odada dolaşırken bile tek bir kişinin sesini algılayacak ve yükseltecek şekilde eğitilebilseydi?

Hedef Konuşma İşitme (TSH)Washington Üniversitesi'ndeki araştırmacılar tarafından geliştirilen çığır açıcı bir yapay zeka sistemi olan , bu alanda ilerleme kaydediyor.

Hedef Konuşma İşitme Sistemi Nasıl Çalışır?

TSH'yi kullanmak için özel donanımlı kulaklık takan kişinin duymak istediği kişiye birkaç saniye bakması yeterlidir. Bu kısa "kayıt" süresi, yapay zeka sisteminin hedef konuşmacının benzersiz ses kalıplarını öğrenmesine ve kavramasına olanak tanır.

Kaputun altında şu şekilde çalışır:

  1. Kullanıcı 3-5 saniye boyunca başını istenen hoparlöre doğru yönlendirirken bir düğmeye basıyor.
  2. Kulaklığın her iki yanında bulunan mikrofonlar, konuşmacının sesinden gelen ses dalgalarını aynı anda (16 derecelik hata payı ile) alır.
  3. Kulaklıklar bu ses sinyalini yerleşik bir bilgisayara iletir.
  4. Makine öğrenimi yazılımı sesi analiz eder ve konuşmacının farklı ses özelliklerinin bir modelini oluşturur.
  5. Yapay zeka sistemi, kullanıcı gürültülü bir ortamda hareket ederken bile kayıtlı konuşmacının sesini gerçek zamanlı olarak izole etmek ve güçlendirmek için bu modeli kullanıyor.

Hedef konuşmacı ne kadar uzun konuşursa sistem o kadar fazla eğitim verisi alır ve bu da sistemin istenen sese daha iyi odaklanmasına ve netleşmesine olanak tanır. "Seçici işitmeye" yönelik bu yenilikçi yaklaşım, zorlu işitsel ortamlarda gelişmiş iletişim ve erişilebilirlik için bir olasılıklar dünyasının kapılarını açıyor.

Shyam Gollakota makalenin kıdemli yazarı ve Paul G. Allen Bilgisayar Bilimi ve Mühendisliği Okulu'nda UW profesörüdür.

“Artık yapay zekayı soruları yanıtlayan web tabanlı sohbet robotları olarak düşünmeye eğilimliyiz. Ancak bu projede, kulaklık takan herkesin işitsel algısını, tercihleri ​​doğrultusunda değiştirmek için yapay zeka geliştiriyoruz. Cihazlarımız sayesinde artık birçok kişinin konuştuğu gürültülü bir ortamda olsanız bile tek bir konuşmacıyı net bir şekilde duyabiliyorsunuz.” – Gollakota

AI kulaklıklar gürültüyü filtreleyerek kalabalığın içinde tek bir ses duymanızı sağlar

AI Kulaklıkların TSH ile Test Edilmesi

Hedef Konuşma İşitme'yi geliştirmek için araştırma ekibi 21 katılımcıyla bir çalışma gerçekleştirdi. Her denek TSH özellikli kulaklıkları taktı ve gürültülü bir ortamda bir hedef konuşmacıyı kaydettirdi. Sonuçlar etkileyiciydi; ortalama olarak kullanıcılar, kayıtlı konuşmacının sesinin netliğini, filtrelenmemiş ses akışına kıyasla neredeyse iki kat daha yüksek olarak değerlendirdi.

Bu atılım, ekibin önceki iş Kullanıcıların işitsel ortamlarını kuş cıvıltıları veya insan sesleri gibi önceden tanımlanmış ses sınıflandırmalarına göre filtrelemelerine olanak tanıyan "anlamsal işitme" üzerine. TSH, belirli bir kişinin sesinin seçici olarak yükseltilmesini sağlayarak bu kavramı bir adım daha ileri götürür.

Yüksek sesli ortamlarda kişisel konuşmaların geliştirilmesinden, işitme engelli kişiler için erişilebilirliğin iyileştirilmesine kadar, sonuçlar önemlidir. Teknoloji geliştikçe işitsel dünyamızı deneyimleme ve onunla etkileşim kurma şeklimizi temelden değiştirebilir.

Yapay Zekalı Kulaklıkların Geliştirilmesi ve Sınırlamaların Aşılması

Hedef Konuşma İşitme işitsel yapay zekada büyük bir ilerlemeyi temsil etse de sistemin mevcut haliyle bazı sınırlamaları vardır:

  • Tek konuşmacı kaydı: Şu an itibariyle TSH, aynı anda yalnızca bir konuşmacıya odaklanacak şekilde eğitilebilmektedir. Birden fazla konuşmacının aynı anda kaydedilmesi henüz mümkün değildir.
  • Benzer ses kaynaklarından kaynaklanan parazit: Kayıt işlemi sırasında hedef konuşmacıyla aynı yönden başka bir yüksek ses geliyorsa sistem, istenilen kişinin ses kalıplarını izole etmekte zorlanabilir.
  • Manuel yeniden kayıt: Kullanıcı ilk eğitimden sonra ses kalitesinden memnun kalmazsa, netliği artırmak için hedef hoparlörü manuel olarak yeniden kaydetmesi gerekir.

Bu kısıtlamalara rağmen, Washington Üniversitesi ekibi TSH'nin yeteneklerini geliştirmek ve genişletmek için aktif olarak çalışıyor. Ana hedeflerinden biri teknolojiyi minyatürleştirerek kulaklık ve işitme cihazı gibi tüketici ürünlerine sorunsuz bir şekilde entegre edilmesini sağlamak.

Araştırmacılar işitsel yapay zeka ile mümkün olanın sınırlarını zorlamaya devam ederken, dikkat dağıtan ofis ortamlarında üretkenliği artırmaktan, ilk müdahale ekipleri ve yüksek riskli durumlarda askeri personel için daha net iletişimi kolaylaştırmaya kadar potansiyel uygulamalar çok büyük. Seçici işitmenin geleceği parlak görünüyor ve Hedef Konuşma İşitme sistemi bunu şekillendirmede çok önemli bir rol oynamaya hazırlanıyor.

Alex McFarland, yapay zekadaki en son gelişmeleri araştıran bir yapay zeka gazetecisi ve yazarıdır. Dünya çapında çok sayıda yapay zeka girişimi ve yayınıyla işbirliği yaptı.