Connect with us

Yapay Zekâ

Araştırmacılar Derin Sinir Ağları ile İnsan Konuşma Tanıma Modeli Geliştirdi

mm

Almanya’dan bir grup araştırmacı, makine öğrenimi ve derin sinir ağlarına dayalı yeni bir insan konuşma tanıma modeli geliştiriyor. Yeni model, insan konuşma tanıma konusunda büyük bir ilerleme kaydedebilir.

İşitme cihazı algoritmaları genellikle insan konuşma tanıma konusunda kullanılır ve belirli bir sayıda kelimenin tanınabileceği sinyal-gürültü oranını belirleyen çeşitli deneylerle değerlendirilir. Ancak bu deneyler genellikle zaman alıcı ve pahalıdır.

Yeni model, The Journal of the Acoustical Society of America‘da yayımlanan araştırmada ayrıntılı olarak açıklanmıştır.

İşitme Engelli Dinleyiciler için Tahminler

Carl Von Ossietzky Üniversitesi’nden Jana Roßbach, bu araştırmanın yazarlarından birisidir.

“Modelimizin yeniliği, çok farklı karmaşıklığa sahip gürültü tipleri için işitme engelli dinleyiciler için iyi tahminler sağlaması ve aynı zamanda düşük hatalar ve ölçülen verilerle yüksek korelasyon göstermesidir” dedi Roßbach.

Araştırmacılar, bir dinleyicinin otomatik konuşma tanıma (ASR) aracılığıyla bir cümledeki kaç kelimeyi anlayabileceğini hesapladı. Alexa ve Siri gibi konuşma tanıma araçları, yaygın olarak kullanılan bu ASR’ye dayanır.

Çalışma ve Sonuçlar

Ekibin gerçekleştirdiği çalışma, sekiz normal işiten ve 20 işitme engelli kişiyi içermektedir. Dinleyiciler, konuşmayı gizleyen birçok farklı karmaşık gürültüye maruz kalmış ve işitme engelli dinleyiciler, yaşa bağlı işitme kaybı düzeylerine göre üç gruba ayrılmıştır.

Yeni model sayesinde araştırmacılar, farklı işitme kaybı derecelerine sahip işitme engelli dinleyicilerin insan konuşma tanıma performansını çeşitli gürültü maskeleri için tahmin edebilmişlerdir. Farklı zamanlı modülasyon ve gerçek konuşmaya benzemeleri açısından farklı karmaşıklıklara sahip gürültü maskeleri için bu tahminleri yapabilmişlerdir. Tüm bunlar, her bir kişinin olası işitme kaybı açısından bireysel olarak gözlemlenmesine ve analiz edilmesine olanak sağlamıştır.

“En çok, tüm gürültü tipleri için tahminlerin iyi çalışması bizi şaşırttı. Tek bir rakip konuşmacı kullanırken modelin sorun yaşayacağını bekliyorduk, ancak öyle olmadı” dedi Roßbach.

Model, tek kulaktan işitme odaklı olduğu için ekip, şimdi iki kulaktan işitme için bir binaural model oluşturmayı amaçlıyor. Ayrıca yeni modelin, dinleme çabası veya konuşma kalitesi gibi konuları tahmin etmek için de kullanılabileceğini belirtiyorlar.

Alex McFarland yapay zeka muhabiri ve yazarıdır ve yapay zekadaki son gelişmeleri araştırıyor. Birçok yapay zeka başlangıç şirketi ve dünya çapındaki yayınlarda işbirliği yaptı.