Connect with us

Yapay Zekâ

Speechmatics Otomatik Konuşma Tanıma Yazılımını Lansman Etti

mm

Önde gelen konuşma tanıma teknolojisi startup Speechmatics son derin öğrenme teknikleri ve đột phá self-süpervised modelleri kullanan ‘Otomatik Konuşma Tanıma’ yazılımını lanç etti. Sistem, Amazon, Google ve Microsoft’u geride bırakma yeteneğini gösterdi.

Stanford Verileri

Speechmatics, Stanford’un ‘Konuşma Tanıma中的 Irksal Ayrımcılık’ çalışmasında bulunan veriler temelinde oluşturuldu ve Afrika Amerikalı sesler için genel olarak %82,8’lik bir doğruluk oranı elde etti. Referans olarak, Google %68,7’lik bir doğruluk oranına ulaştı, Amazon ise %68,6’ya ulaştı.

Doğruluk düzeyi, konuşma tanıma hatalarında %45’lik bir azalma anlamına geliyor, bu da ortalama bir cümledeki üç kelimeye eşittir. Yeni Speechmatics sistemi bu konuda sadece doğru değil, aynı zamanda aksan, yaş, lehçeler ve diğer çeşitli sosyodemografik özellikler açısından da doğrulukta iyileşme gösterdi.

Konuşma tanıma genellikle algoritmaların kendilerini eğitmek için kullanabilecekleri etiketli verilerin sınırlı olması nedeniyle yanlış anlaşılmaya neden olur. Etiketli veriler, insanlar tarafından manuel olarak sınıflandırılması gerektiğinden, bu sistemler için daha az veri mevcut olur. Bu da tüm seslerin temsilini sınırlar ve yeni bir dizi sorun yaratır.

Etiketsiz Veriler Üzerinde Eğitim

Speechmatics bu konuda büyük ilerleme kaydediyor, çünkü teknoloji doğrudan internetten gelen devasa miktarda etiketsiz verilere dayanıyor. Veriler, sosyal medya içeriği ve podcast’lerden geliyor.

Kendini süpervised öğrenme, sistemin 1,1 milyon saatlik ses verilerine eğitim almasını sağladı, bu da önceki 30.000 saatten önemli bir artış anlamına geliyor. Bu, seslerin çok daha geniş bir temsilini sağlar ve konuşma tanıma中的 AI yanlılığı ve hataları azaltmaya yardımcı olur.

Çocuk sesleri konusunda Speechmatics, rakiplerini geride bırakma yeteneğini gösterdi. Çocuk sesleri, miras konuşma tanıma teknolojisi için tanınması zor olsa da, Speechmatics %91,8’lik bir doğruluk oranı elde etti. Google %83,4 ve Deepgram %82,3 elde edebildi.

Katy Wigdahl, Speechmatics CEO’su.

“Makine öğrenimi yeteneklerinin bir sonraki neslini sunmaya ve bu sayede daha kapsayıcı ve erişilebilir konuşma teknolojisi sunmaya çalışıyoruz. Bu duyuru, bu misyonu gerçekleştirmemiz için büyük bir adım.”

“AI yanlılığı ile mücadele odaklı çalışmamız, konuşma tanıma endüstrisinde devasa bir ilerlemeye yol açtı ve bunun etkileri birçok farklı senaryoda hissedilecek. Sosyal medyadaki hatalı altyazıları, mahkeme duruşmalarında yanlış yazılmış kelimeleri ve çocuk sesleri ile mücadele eden e-Öğrenme platformlarını düşünün. İnsanların şimdiye kadar kabul etmek zorunda kaldıkları hatalar, günlük hayatlarında somut bir etkiye sahip olabilir.”

Allison Zhu Koenecke, Stanford’un konuşma tanıma çalışmasının baş yazarı.

“Sağlık hizmetlerinden ceza adaletine kadar çeşitli sektörlerde bireyelere zarar verme potansiyeli nedeniyle konuşma metne sistemlerinde adillik konusunda çalışmak ve geliştirmek çok önemlidir.”

Alex McFarland yapay zeka muhabiri ve yazarıdır ve yapay zekadaki son gelişmeleri araştırıyor. Birçok yapay zeka başlangıç şirketi ve dünya çapındaki yayınlarda işbirliği yaptı.