Yapay Zekâ
aiOla, QUASAR’ı Tanıtıyor: Üretimdeki Konuşma Tanıma Nasıl Çalıştığına Yeni Bir Bakış

aiOla QUASAR platformunu tanıttı. QUASAR, girişimdeki en büyük sorunlardan biri olan gerçek dünya koşullarında tutarlı konuşma tanıma performansını çözme amacıyla tasarlandı. Müşterileri tek bir otomatik konuşma tanıma (ASR) sağlayıcısına kilitlemek yerine, QUASAR her bir ses etkileşimini o anda en iyi performansı gösteren ASR motoruna dinamik olarak yönlendiren akıllı bir ağ geçidi olarak çalışır.
Bu değişiklik, konuşmanın AI tarafından çalışan iş akışları boyunca temas merkezleri, uyum, analiz, arama ve artan şekilde özerk AI ajanları için temel bir girdi haline geldiği medida önemlidir. Benchmark puanları genellikle ASR seçimini yönlendirse de, üretim ortamları aksan, arka plan gürültüsü, alan spesifik terminoloji ve değişen ağ kalitesi ile domine edilir – bu faktörler tanıma doğruluğunu bir etkileşimden diğerine dramatik şekilde değiştirebilir.
Neden Tek Boyutlu ASR Büyük Ölçekli Olarak Bozulur
Bugün çoğu girişim ASR’ı statik altyapı kararı olarak dağıtır. Tek bir sağlayıcı seçilir ve iş akışlarına derinlemesine gömülür. Uygulamada bu, kör noktalar oluşturur. Temiz, okunmuş konuşmada mükemmel olan bir motor, aksanlı konuşmacılar veya endüstri ağır kelime dağarcığı ile mücadele edebilir. Başka bir motor gürültülü sesi iyi işleyebilir ancak uyum ve faturalama için kritik olan proper nouns veya numerik dizileri kaçırabilir.
Bu boşlukları gidermek için sağlayıcıları değiştirmek pahalı ve kesintiye neden olur, genellikle yeniden eğitim, yeniden doğrulama ve operasyonel kapalı zaman gerektirir. Aynı zamanda, yeni ASR modelleri ve güncellemeleri çoğu organizasyonun test etme ve benimseme yeteneğinin ötesinde bir hızda yayınlanır. Sonuç, daha düşük kapsama oranları, yanlış özetler, daha zayıf analizler ve daha yüksek kalite güvence yükü – tümü kaçınılabilecek transkript hataları tarafından yönlendirilir.
QUASAR Mimarisi İçinde: ASR’ı Dinamik Bir Problem Olarak Ele Alma
QUASAR konuşma tanımayı gerçek zamanlı bir optimizasyon challenge olarak ele alır. Her gelen ses isteği, konuşmacı özellikleri, akustik koşullar ve alan bağlamı gibi faktörler dikkate alınarak transkript öncesi değerlendirilir. Bu değerlendirme temelinde, sistem sesi o belirli etkileşim için en yüksek kaliteli sonucu sağlayabilecek ASR motoruna yönlendirir.
Teknik olarak QUASAR, ticari bulut API’leri, self-hosted modeller ve özel ASR dağıtımları boyunca çalışabilen bir orkestrasyon katmanı olarak işlev görür. Bu soyutlama, girişimlerin yeni motorlarla denemek, maliyet ile kalite arasında dengelemek ve uzun süreli satıcı kilidini önlemek için downstream uygulamaları değiştirmeden olanak sağlar.
Çekirdeğinde, ASR seçeneklerini gerçek zamanlı olarak puanlayan ve sıralayan bir gözetimsiz değerlendirme ve sıralama mekanizması bulunur. Sadece tarihi ortalamalara güvenmek yerine, sistem canlı koşullardan sürekli olarak öğrenir, böylece transkript kararları ortamlar, konuşmacılar ve kullanım durumları evrimleşadıkçe adapte olur.
Gerçek Dünya Ses Koşullarında Performans
İç değerlendirme boyunca altı çeşitli benchmark veri setleri – temiz okunmuş konuşmadan, profesyonellerin konuşmalarından, aksanlı, gürültülü ve finansal seslere kadar – QUASAR, en iyi performansı gösteren ASR seçeneğini %88,8 genel doğrulukla veya sonuçlar etkili bir şekilde bağlandığında eşdeğer bir üst seçimi seçti. Doğruluk, temiz konuşmada %97’ye ulaştı ve aksan, gürültü ve uzmanlaşmış kelime dağarcığı içeren daha zorlu seslerde %79-88 aralığında kaldı.
Bu sonuçlar, bir anahtar içgörüyü vurgular: tek bir ASR motoru tüm senaryolarda tutarlı bir şekilde kazanmaz, ancak akıllı yönlendirme birçok motorun güçlerini yakalayabilir.
Ses’i Yaşayan Altyapı Olarak Etkinleştirme
Ses tanıma kalitesini sabit bir sağlayıcıdan ayırarak, QUASAR ASR’ı aiOla’nın “yaşayan altyapı” olarak tanımladığı şeye dönüştürür. Girişimler, etkileşim düzeyinde transkript performansı için ince detaylı görünürlük kazanır ve kullanım durumuna bağlı olarak doğruluk, maliyet veya gecikme için optimize edebilir.
Bu yaklaşım ayrıca yeni bölgelere ve dikeylere genişlemeyi hızlandırır. Tek bir satıcının bir dili, aksanı veya endüstri spesifik kelime dağarcığını desteklemek için beklemek yerine, organizasyonlar trafiği o niş için en uygun motora yönlendirebilir ve daha iyi seçenekler ortaya çıktıkça değiştirebilir.
aiOla’nın Ses Tabanlı İş Akışları için Daha Geniş Vizyonu
QUASAR, aiOla’nın girişimlerdeki sistemler için doğal arayüz olarak sesi yapma misyonunu genişletir. Şirketin patenti modelleri, standart konuşma metne gitmekten öte, ses tanımayı iş akışı zekası ile birleştirerek konuşulan girdiyi gerçek zamanlı, yapılandırılmış verilere dönüştürür. Bu, elle veri girişi hala bir engel olan kritik endüstrilerdeki otomatikleştirme için olanak sağlar.
58 milyon dolarlık fonlama ve araştırma odaklı bir ekiple desteklenen aiOla, sesi sadece bir girdi modalitesi olarak değil, aynı zamanda AI tarafından çalışan operasyonlar için temel altyapı olarak konumlandırıyor. QUASAR ile şirket, bu vizyonu ASR katmanına kendisi genişletiyor – büyük ölçekli konuşma tanıma nasıl dağıtılacağına ilişkin uzun süredir devam eden varsayımları sorguluyor.
Ses, AI ajanları ve girişimlerin sistemleri için birincil arayüz haline geldikçe, dinamik, bağlam bilinci konuşma tanıma temel olabilir. QUASAR’ın lansmanı, statik model seçimlerinden uzaklaşarak, performans odaklı orkestrasyona doğru bir hamle sinyalini veriyor – bu, tüm ses AI ekosisteminin ASR’ı tüketme şeklini yeniden şekillendirebilir.












