Yapay Zekâ

Vikrant Tomar, Fluent.ai’nin CTO ve Kurucusu – Röportaj Serisi

Published January 13, 2021

Updated April 28, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Vikrant Tomar, Fluent.ai‘nin CTO ve kurucusudur, cihaz OEM’leri ve hizmet sağlayıcıları için konuşma anlaşma ve ses kullanıcı arabirimi yazılımları sunar.

Konuşma tanıma için akustik modelleme çalışmasına ilk olarak neler sizi çekti?

Aslında, cihazlarla insanlarla konuştuğumuz şekilde konuşabilme yeteneği. Bu vizyon beni her zaman etkiledi. Üniversite son sınıfında konuşma tanıma çalışmaya başladım. Bu aynı zamanda araştırma ile ilgilenmeye başladığım zamandı, bu nedenle konuşma tanıma kursu ve ilgili bir araştırma projesi aldım. Bu çalışmadan bir araştırma makalesi yayınladım, konuşma tanıma konferanslarından biri olan InterSpeech konferansında. Tüm bunlar beni konuşma tanıma araştırmalarına uzun vadeli odaklanmak için motive etti, böylece doktora.

2015 yılında Fluent.ai’yi başlattınız, bu startup’ın arkasındaki hikayeyi paylaşabilir misiniz?

Uzun süredir girişimci bir ruh taşıyorum. İki arkadaşım ile birlikte üniversite son sınıfında bir şirket kurmaya çalıştım, ancak birkaç nedenden dolayı bu girişim başarısız oldu. McGill’de doktora çalışırken, Montreal’in startup sahnesini izledim. Bu sırada, Fluent.ai’yi yarattığım startup foundry TandemLaunch’taki insanlarla temas kurma fırsatım oldu. Doktora eğitimimin sonuna doğruydum ve girişimciliği tekrar ciddi şekilde düşünüyordum. Araştırma deneyimim, diğer konuşma araştırma grupları ile ilişkim ve çalışmam, çoğu konuşma tanıma deneyimimin belirli bir şekilde konuşma tanıma yaptığını, yani konuşmadan metin transkripsiyonuna ve ardından doğal dil işleme gittiğini fark ettim. Ancak bu, kullanılabilirlik açısından bir boşluk bıraktı. Büyük bir nüfus, bu yöntemlerle geliştirilen konuşma çözümlerinden yararlanamıyordu. Bu yöntemler için gereken veri miktarı o kadar büyüktü ki, daha az konuşmacıya sahip diller için ayrı modeller geliştirmek ekonomik olarak anlamlı olmazdı. Ayrıca, birçok lehçe ve dilin ayrı bir yazılı formu yoktur. Ailem bile benim geliştirdiğim araçları kullanamıyordu (onlar bir Hint lehçesini konuşuyorlar). Tüm bunları düşünerek, konuşma modelleri oluşturmanın farklı yollarını düşündüm, bu yöntemlerde gereken veri miktarı daha az olmalı ve/veya son kullanıcılar kendileri modelleri eğitebilmeli veya güncelleyebilmeliydi. KU Leuven Üniversitesi’nin (KUL) bu gereksinimleri karşılayabilecek bazı çalışmaları olduğunu biliyordum. KUL’den gelen teknoloji ile birlikte, Fluent’ın bugün olduğu ilk adımları atmaya başladık.

Fluent.ai’nin sezgisel konuşma anlaşma çözümlerini açıklar mısınız?

Fluent.ai’nin konuşma tanıma çözümleri, insanların dil öğrenme ve konuşma tanıma şekline ilham olmuştur. Geleneksel konuşma tanıma sistemleri, önce girdi konuşmasını metne transkribe eder ve sonra bu metinden anlam çıkarır. İnsanlar konuşma tanıma böyle yapmaz. Okumayı yazmayı öğrenmeden önce çocukların kolayca konuşabildiğini düşünün. Benzer şekilde, Fluent’ın derin sinir ağları tabanlı modelleri, konuşma seslerinden doğrudan anlam çıkarmaya capable, önce metne transkribe etmek zorunda kalmadan. Teknik olarak, bu真正 Spoken Language Understanding’dir. Bu yaklaşımın birçok avantajı vardır. Geleneksel konuşma tanıma, birçok modülün bir araya gelerek nihai bir cevap ürettiği karmaşık bir yaklaşımdır. Bu, varyasyonlar, aksanlar, gürültü, arka plan koşulları vb. için optimum olmayan bir çözüm ile sonuçlanır. Fluent’ın otomatik niyet tanıma (AIR) sistemi, son derece optimize edilmiştir; tamamen bir sinir ağı tabanlı mimariye sahiptir, tüm modüller bir araya gelerek en optimal çözümü sağlar. Ayrıca, geleneksel konuşma tanıma sisteminde thường bulunan birçok hesaplama yoğun modülü kaldırabiliyoruz. Bu, düşük ayak izi konuşma tanıma sistemleri oluşturmamızı sağlar, bu sistemler 40KB RAM ile düşük güç mikrodenetleyici çalıştırabilen küçük bir ayak izine sahiptir. Son olarak, konuşma anlaşma tabanlı AIR sistemlerimiz, benzersiz bir şekilde diller arasındaki benzerlikleri kullanabilir ve birden fazla dili aynı modelde tanıyabilme gibi eşsiz özellikler sunabilir.

Gürültü sorununu aşmak için konuşma tanıma arkasındaki bazı AI zorlukları nelerdir?

Gürültü, konuşma tanıma için en büyük zorluklardan biridir. Bu gerçekten zor bir problem çünkü birçok farklı türde gürültü vardır ve bunlar konuşma spektrumunu farklı şekillerde etkiler. Bazen gürültü, mikrofon yanıtını da etkileyebilir. Çoğu durumda, konuşma kaynaklarını gürültü kaynaklarından ayırmak mümkün değildir. Bazı durumlarda, gürültü, konuşma spektrumunda bulunan bilgileri maskeleyebilir, diğerlerinde ise konuşma spektrumundan tüm yararlı bilgileri kaldırabilir. Her iki durumda da, bu, düşük doğruluğa yol açar. Sürekli gürültü türlerini çıkarmak kolaydır, örneğin fan gürültüsü, ancak bazı gürültü türleri, örneğin arka plandaki people talking veya müzik, konuşma spektrumunu farklı şekillerde etkilediği için çıkarmak çok zordur.

Edge AI’yi tanımlayabilir ve Fluent.ai’nin bu tür AI’yi nasıl kullandığını açıklayabilir misiniz?

Edge AI, AI uygulamalarının düşük güç cihazlarına taşınmasına ilişkin çeşitli yöntemleri kapsayan bir şemsiye terimdir. Artık, edge cihazların belirli zeki hesaplamaları kendileri yaptığı durumlar için bu terim kullanılmaktadır. Fluent’da, yüksek kaliteli konuşma anlaşma解决mesini edge’a getirmeye odaklanıyoruz. Düşük güç hesap cihazlarının kendileri girdi konuşmasını tanıyabilmesi için verimli algoritmalar geliştirdik, böylece veri bulut tabanlı bir sunucuya işleme için gönderilmesine gerek kalmaz. Avantajlar iki katlıdır: ilk olarak, kullanıcıların ses verilerini buluta akışını ve depolamasını gerektirmediği için kullanıcı gizliliği tehlikeye girmez. İkincisi, bu yaklaşım gecikmeyi azaltır, çünkü konuşma verileri ve cevap bulut sunucusu ile cihaz arasında seyahat etmek zorunda kalmaz.

Diğer hangi tür makine öğrenimi teknolojileri kullanılıyor?

Birincil odak noktamız, konuşma tanıma için derin öğrenme tabanlı yaklaşımlardır. Yeni, daha önce bilinmeyen AI model mimarilerini keşfetmek için RL (pekiştirme öğrenimi) yöntemleri, örneğin NASIL[1], kullanıyoruz, böylece AI, AI yaratıyor. Ve AutoML’yi, önceden belirlenmiş AI modellerimizi güvenilir sonuçlar elde etmek için farklı uygulamalar için ayarlamak için kullanıyoruz, böylece güvenilirlik ve tekrar üretilebilirlik artıyor. Model sıkıştırma ve diğer matematiksel yaklaşımlar ayrıca model performansını optimize etmeye yardımcı oluyor.

Doğal dil anlaşma ve doğal dil işleme için gelecek 5 yıl içinde neler olacağını öngörüyorsunuz?

Sistemlerin daha doğal etkileşimler sunmasını bekliyorum. Son yıllarda kaydedilen ilerlemeye rağmen, çoğu mevcut sistem yalnızca basit sorgulara cevap verebiliyor veya sesle aktive edilmiş bir internet araması yapabiliyor. Daha fazla çözümün, bir kişinin tüm sorgusuna cevap verebileceğini ve yalnızca bir ses tabanlı arama motoru olarak işlev görmediğini göreceğiz.

Diğer ilginç yön, gizliliktir. Şu anda popüler çözümler主要 olarak internete bağlı cihazlardır ve tüm ses verilerini bulut sunucusuna akışını sağlar. Ancak bu çözümlerin gizliliği bir sorun haline geliyor. Ayrıca, ses arabirimlerinin tüketici elektroniğinden öte, endüstriyel ortamlarda, profesyonel ses alanında, otel odalarında ve konferans salonlarında da uygulamalarını görmeye başlıyoruz. Bu uygulamalar için ana gereksinim, gizliliktir, bu nedenle mevcut bağlı çözümler yeterli değildir, bu nedenle daha fazla edge AI veya cihazda doğal dil çözümleri göreceğiz.

Daha önce de belirttiğim gibi, konuşma ve doğal dil çözümleri, dünya nüfusunun büyük bir bölümü için erişilemez durumda kalıyor. Yeni tür AI modelleri geliştirmeye yönelik önemli çalışmalar正在 yürütülüyor, bu modeller küçük miktarda veri ile eğitilebiliyor, bu da geliştirme maliyetlerini azaltıyor ve daha az konuşmacıya sahip dillerde modeller geliştirmeyi mümkün kılıyor. Aynı doğrultuda, birden fazla dili aynı modelde tanıyabilen çözümler göreceğiz. Genel olarak, anadillerinde kullanıcıların sorgusuna cevap verebilen çok dilli AI modellerinin daha fazla dağıtımını göreceğiz.

Fluent.ai hakkında paylaşmak istediğiniz başka bir şey var mı?

Konuşma teknolojisi son yıllarda büyük ilerleme kaydetti ve önünde büyüme potansiyeli var. Fluent.ai’da, mevcut teknolojimizin yeni kullanım örnekleri arıyoruz ve sürekli olarak içerde yenilikler yapıyoruz. COVID-19 salgını, asansör düğmeleri, restoranlardaki kiosklar gibi yüksek temas alanlarına karşı artan bir duyarlılık yarattı, bu da ses etkin teknolojiye yönelik yeni bir talebi tetikledi. Fluent.ai, bu açıkları doldurmayı umuyor, çünkü我们的 çözümler çok dilli ve daha kapsayıcı, ve çevrimdışı çalışabiliyor, böylece ek bir gizlilik katmanı sunuyor. Bu işlevler, konuşma teknolojisinin geleceği olacak.

Harika röportaj için teşekkür ederiz, daha fazla bilgi edinmek isteyen okuyucular Fluent.ai‘yi ziyaret edebilir.

[1] https://www.researchgate.net/profile/Farzaneh_Sheikhnezhad_Fard/publication/341083699_Nasil_Neural_Archit

Antoine Tardif, CEO & Founder of Unite.AI

Antoine bir vizyoner lider ve Unite.AI'in kurucu ortağıdır ve AI ve robotik geleceğini şekillendirmek ve tanıtmak için sarsılmaz bir tutkuyla hareket etmektedir. Bir seri girişimci olarak, toplum için elektrik kadar yıkıcı olacağına inandığı AI'nin potansiyeli hakkında sık sık konuşur ve coşkusunu dile getirir.
Bir futurist olarak, bu yeniliklerin dünyamızı nasıl şekillendireceğini keşfetmeye adanmıştır. Ayrıca, Securities.io kurucusudur, bu platform geleceği yeniden tanımlayan ve tüm sektörleri yeniden şekillendiren teknolojilere yatırım yapmaya odaklanmıştır.

Unite.AI

Vikrant Tomar, Fluent.ai’nin CTO ve Kurucusu – Röportaj Serisi

You may like