Connect with us

Yapay Zekâ

Araştırmacılar Otomatik Konuşma Tanıma Sistemini 2.000 Dile Genişletmeye Çalışıyor

mm

Carnegie Mellon Üniversitesi’ndeki bir araştırma ekibi, otomatik konuşma tanıma sistemini 2.000 dile genişletmeye çalışıyor. Şu anda,世界’deki 7.000 ila 8.000 konuşulan dilden sadece bir kısmı, sesden metne transkripsiyon veya otomatik altyazı gibi modern dil teknolojelerinden yararlanabilecek.

Xinjian Li, Bilgisayar Bilimi Okulu’nun Dil Teknolojileri Enstitüsü (LTI)’nde doktora öğrencisidir.

“Dünya’da çok fazla insan çeşitli diller konuşuyor, ancak dil teknolojisi araçları tüm diller için geliştirilmiyor” dedi. “Tüm insanlar için teknoloji ve iyi bir dil modeli geliştirmek, bu araştırmanın amaçlarından biridir.”

Li, bir dilin konuşma tanıma modeli geliştirmesi için gerekli veri gereksinimlerini basitleştirmeye çalışan uzmanlardan oluşan bir ekibe dahildir.

Ekibe ayrıca LTI öğretim üyeleri Shinji Watanabe, Florian Metze, David Mortensen ve Alan Black dahildir.

“Araştırmamızın adı ASR2K: Ses Tanıma için 2.000 Dil Without Audio” ve Interspeech 2022’de Güney Kore’de sunuldu.

Mevcut konuşma tanıma modellerinin więkseliği metin ve ses veri setlerine ihtiyaç duyar. Binlerce dil için metin verisi mevcut iken, aynı durum ses için geçerli değildir. Ekibin amacı, diller arasında ortak olan dilbilimsel öğelere odaklanarak ses verisi ihtiyacını ortadan kaldırmaktır.

Konuşma tanıma teknolojileri genellikle bir dilin fonemine odaklanır, bu da diğer dillerden ayıran ayrıntıları içerir. Bu, her dil için benzersizdir. Aynı zamanda, dillerde kelimelerin fiziksel olarak nasıl söylendiğini tanımlayan fonemler vardır ve birden fazla fonem tek bir foneme karşılık gelebilir. Farklı diller farklı fonemlere sahip olabilir, ancak altta yatan fonemler aynı olabilir.

Ekibin çalıştığı konuşma tanıma modeli, fonemlere değil, fonemlerin diller arasında nasıl paylaşıldığına ilişkin bilgilere daha fazla odaklanıyor. Bu, her bir dil için ayrı modeller oluşturma ihtiyacını azaltmaya yardımcı oluyor. Modeli, diller arasındaki ilişkileri gösteren bir soyağacı ile birleştirerek, telaffuz kuralları konusunda yardımcı oluyor. Ekibin modeli ve ağaç yapısı, ses verisi olmadan binlerce dil için konuşma modelini yaklaşık olarak mümkün kılıyor.

“Ses verisi gereksinimini ortadan kaldırmaya çalışıyoruz, bu da bize 100 ila 200 dilden 2.000 dile geçmemizi sağlıyor” dedi Li. “Bu, böyle büyük bir dil sayısına hedefleyen ilk araştırma ve bu kapsamda dil araçlarını genişletmeye çalışan ilk ekibiz.”

Araştırma, henüz erken aşamada olmasına rağmen, mevcut dil yaklaşıklama araçlarını %5 oranında geliştirdi.

“Her dil, kültürünün çok önemli bir parçasıdır. Her dilin kendi hikayesi vardır ve dilleri korumaya çalışmazsanız, bu hikayeler kaybolabilir” dedi Li. “Bu konuşma tanıma sistemini ve aracı geliştirmek, dilleri korumaya yönelik bir adımdır.”

Alex McFarland yapay zeka muhabiri ve yazarıdır ve yapay zekadaki son gelişmeleri araştırıyor. Birçok yapay zeka başlangıç şirketi ve dünya çapındaki yayınlarda işbirliği yaptı.