Röportajlar
Jean-Louis Quéguiner, Gladia’nın Kurucusu ve CEO’su – Röportaj Serisi

Jean-Louis Quéguiner Gladia’nın kurucusu ve CEO’sudur. Daha önce Avrupa’nın önde gelen bulut sağlayıcılarından biri olan OVHcloud’da Veri, Yapay Zeka ve Kuantum Bilgisayarından Sorumlu Grup Başkan Yardımcısı olarak görev yapmıştır. Kanada’daki Québec Üniversitesi ve Paris’teki Arts et Métiers ParisTech’ten Sembolik Yapay Zeka alanında yüksek lisans derecesine sahiptir. Kariyeri boyunca finansal veri analitiği, gerçek zamanlı dijital reklamcılık için makine öğrenimi uygulamaları ve konuşma yapay zeka API’lerinin geliştirilmesi gibi çeşitli sektörlerde önemli pozisyonlarda bulunmuştur.
Gladia, ürünleri çeşitli endüstriler, diller ve teknoloji yığınları boyunca sorunsuz bir şekilde entegre etmek için gelişmiş ses transkripti ve gerçek zamanlı yapay zeka çözümleri sağlar. Son teknoloji ASR ve üretken yapay zeka modellerini optimize ederek, doğru, gecikmesiz konuşma ve dil işleme sağlar. Gladia’nın platformu ayrıca çağrılar ve toplantılardan gerçek zamanlı olarak içgörüler ve meta verileri çıkarmayı sağlar ve satış yardımı ve otomatik müşteri desteği gibi önemli kuruluş kullanım örneklerini destekler.
Ses metne (STT) teknolojisindeki zorlukları ele almak için sizi ne ilham verdi ve piyasada hangi boşlukları gördünüz?
Gladia’yı kurduğumda, ilk hedefimiz genişti – erişilebilir kompleks teknoloji olan bir yapay zeka şirketi. Ancak daha derine daldıkça, ses teknolojisinin en çok bozulan ve odaklanılması gereken en kritik alan olduğu açıklandı.
Ses, günlük hayatımızın merkezinde ve iletişimimizin çoğu konuşma yoluyla gerçekleşiyor. Ancak geliştiriciler için ses verisiyle çalışmak üzere mevcut olan araçlar, hız, doğruluk ve fiyat açısından yetersizdi – özellikle diller arasında.
Bunu düzeltmek, ses teknolojisinin karmaşıklığını çözmek ve onu basit, verimli, güçlü ve erişilebilir bir şeye dönüştürmek istedim. Geliştiricilerin yapay zeka modellerinin nüansları veya konuşma tanıma中的 bağlam uzunluğu hakkında endişe etmemeleri gerekiyor. Amacım, altta yatan model veya teknoloji ne olursa olsun sorunsuz çalışan bir kurumsal sınıf konuşma metne API’si oluşturmaktı – gerçek bir tak ve çalıştır çözümü.
İşletme kullanımı için bir transkript çözümünü oluştururken karşılaştığınız bazı benzersiz zorluklar nelerdir?
Konuşma tanıma söz konusu olduğunda, hız ve doğruluk – bu alanda iki önemli performans göstergesi – tasarımı itibariyle ters orantılıdır. Bu, birinin diğerini sacrificinge götürmesi demektir. Maliyet faktörü, büyük ölçüde sağlayıcının hız ve kalite arasında yaptığı tercihten kaynaklanmaktadır.
Gladia’yı inşa ederken, bu iki faktör arasında mükemmel bir denge bulmayı amaçladık, aynı zamanda teknolojinin startups ve KOBİ’ler için erişilebilir kalmasını sağladık. Süreçte, OpenAI’nin Whisper gibi temel ASR modellerinin, eğitim verilerine bağlı olarak İngilizce’ye doğru ağır bir şekilde yanlı olduğunu ve birçok dilin temsil edilmediğini fark ettik.
Bu nedenle, hız-doğruluk ticaretini çözmeye ek olarak, bir Avrupa, çok dilli ekip olarak, gerçekten global bir API oluşturmak için çekirdek modellerimizi optimize etmek ve ince ayarlamak önemliydi.
Gladia, kalabalık bir AI transkript pazarında kendini nasıl ayırt ediyor? Whisper-Zero ASR’niz neye benzersiz kılıyor?
Yeni gerçek zamanlı motorumuz (Gladia Real Time), 300 ms’lik endüstri lideri bir gecikme sağlar. Buna ek olarak, çağrı veya toplantı sırasında içgörüler çıkarmak için “ses zekası” eklentileri veya özellikler gibi adlandırılan things ile adlandırılan things’i çıkarabilir – Örneğin, adlandırılmış varlık tanıma (NER) veya sentiment analizi.
Bilgimiz dahilinde, çok az rakip, transkript ve içgörüler sunarken 1 saniyenin altında (toplamda) bir gecikme sunabilir ve bunu İngilizce以外 dillerde de doğru bir şekilde yapabilir. Bugün dil desteğimiz 100 dilin üzerindedir.
Ürünü gerçekten yığın bağımsız hale getirmeye özel bir vurgu koyuyoruz. API’miz, SIP, VoIP, FreeSwitch ve Asterisk dahil tüm mevcut teknoloji yığınları ve telekomünikasyon protokolleriyle uyumludur. Telekomünikasyon protokolleri, özellikle entegre edilmeleri için karmaşıktır, bu nedenle bu ürünün piyasaya büyük bir değer katacağına inanıyoruz.
AI modellerindeki hallucinations, özellikle gerçek zamanlı transkript söz konusu olduğunda önemli bir endişe kaynağıdır. Hallucinations’ın STT bağlamında ne olduğunu ve Gladia’nın bu sorunu nasıl ele aldığını açıklar mısınız?
Hallucination genellikle modelin konu hakkında yeterli bilgiye sahip olmadığı veya yeterli bağlamın olmadığı zaman ortaya çıkar. Modeller, talebe uygun çıktılar üretebilir, ancak yalnızca eğitim sırasında mevcut olan bilgileri referans alabilir ve bu, güncel olmayabilir. Model, boşlukları inandırıcı ancak yanlış bilgilerle doldurarak tutarlı yanıtlar üretebilir.
Hallucinations, ilk olarak LLM’lerde bilinen bir sorun olarak ortaya çıktı, ancak konuşma tanıma modelleri – Örneğin, OpenAI tarafından geliştirilen Whisper ASR gibi – de bu sorunu yaşamaktadır. Whisper’ın hallucinations’ı, benzer bir mimariye sahip olduğu için LLM’lerle benzerdir, bu nedenle bu, generatif modellerle ilgili bir sorundur ve bu modeller, bağlam temelinde takip eden kelimeleri tahmin edebilir. Bir şekilde, çıktıları “icat” ederler. Bu yaklaşım, daha geleneksel, akustik temelli ASR mimarilerine tezat oluşturur, bunlar, girişi mekanik olarak çıktı ile eşler.
Sonuç olarak, aslında söylenmeyen kelimeleri transkriptte bulabilirsiniz, bu, özellikle tıp gibi alanlarda ciddi sonuçlar doğurabileceğinden açık bir sorundur.
Hallucinations’ı yönetmek ve tespit etmek için beberapa yöntem vardır. Bir approach, retrieval-augmented generation (RAG) sistemini kullanmaktır, bu, modelin üretken yeteneklerini, gerçekleri çapraz kontrol etmek için bir geri alma mekanizması ile birleştirmeyi içerir. Bir başka yöntem, modelin mantıksal bir yola rehberlik ettiği “düşünce zinciri” yaklaşımını içerir.
Hallucinations’ı tespit etmek için bir başka strateji, modelin eğitim sırasında çıktısının doğruluğunu değerlendiren sistemleri kullanmayı içerir. Hallucinations’ı değerlendirmek için özel olarak tasarlanmış benchmark’lar vardır, bunlar, model tarafından üretilen farklı aday yanıtları karşılaştırma ve hangisinin en doğru olduğunu belirleme işlemini içerir.
Gladia olarak, Whisper-Zero adlı özel ASR’mizi inşa ederken, çeşitli teknikleri denedik ve neredeyse tüm hallucinations’ı kaldıran sonuçlar aldık. Asenkron transkriptlerde mükemmel sonuçlar verdi ve şu anda gerçek zamanlı için optimize ediyoruz ve %99,9’luk bilgi bütünlüğünü elde etmeyi amaçlıyoruz.
STT teknolojisinin, aksan, gürültü ve çok dilli konuşmalar gibi bir dizi karmaşıklığı ele alması gerekir. Gladia, bu zorlukları yüksek doğrulukla ele almak için nasıl bir yaklaşım izliyor?
ASR’de dil algılama, son derece karmaşık bir görevdir. Her konuşmacı, benzersiz bir vokal imzasına sahiptir, bu, özellikler olarak adlandırılır. Makine öğrenimi algoritmaları, vokal spektrumunu analiz ederek sınıflandırmalar yapabilir, Mel Frequency Cepstral Coefficients (MFCC) kullanarak ana frekans özelliklerini çıkarabilir.
MFCC, insan işitsel algısına ilham veren bir yöntemdir. “Psychoacoustic” alanının bir parçasıdır, sesi nasıl algıladığımızı odaklar. Alt frekansları vurgular ve sesi frekans spektrumuna dönüştürmek için normalize Fourier ayrıştırmaya benzer teknikler kullanır.
Ancak bu yaklaşımın bir sınırlaması vardır: tamamen akustiğe dayanır. Eğer güçlü bir aksanla İngilizce konuşursanız, sistem içeriği anlamayabilir, ancak ritim, vurgulama ve tonlama gibi prosodiye dayanarak yargılayabilir.
Gladia’nın yenilikçi çözümü burada devreye girer. Psiko-akustik özelliklerle birlikte dinamik dil algılama için içerik anlama birleştirerek melez bir yaklaşım geliştirdik.
Sistemimiz sadece nasıl konuştuğunuza kulak vermez, aynı zamanda ne dediğinizi anlar. Bu çift yaklaşım, etkili kod değişimi sağlar ve güçlü aksanların yanlış temsil edilmesini veya yanlış anlaşılmasını önler.
Kod değişimi – özellikle çok dilli konuşmaların ele alınmasında – bizim için önemli bir ayırt edici özelliktir. Konuşmacılar, cümle içinde veya cümle arasında diller arasında geçiş yapabilir ve modelin, geçişe rağmen doğru bir şekilde transkript oluşturabilmesi kritiktir.
Gladia API’si, bu kadar çok dil çifti ile yüksek bir doğruluk seviyesinde kod değişimini işleyebilme açısından benzersizdir ve gürültülü ortamlarda, transkript kalitesini azaltabilen faktörlerde bile iyi performans gösterir.
Gerçek zamanlı transkript, ultra düşük gecikme gerektirir. API’niz, doğruluğu korurken 300 milisaniyenin altında bir gecikme nasıl sağlıyor?
300 milisaniyenin altında bir gecikmeyle birlikte yüksek doğruluk sağlamak, donanım uzmanlığı, algoritma optimizasyonu ve mimari tasarımın birleştiği çok yönlü bir yaklaşımı gerektirir.
Gerçek zamanlı AI, geleneksel hesaplama gibi değildir – GPGPUs’un gücü ve verimliliği ile sıkı bir şekilde bağlantılıdır. Bu alanda neredeyse bir on yıl önce, OVHCloud’un (AB’nin en büyük bulut sağlayıcısı) AI bölümünün lideri olarak çalıştım ve ilk elden öğrendim ki, her zaman doğru dengeyi bulmak önemlidir: ne kadar donanım gücüne ihtiyacınız vardır, maliyeti nedir ve algoritmaları bu donanımla sorunsuz bir şekilde çalışacak şekilde nasıl uyarlayabilirsiniz.
Gerçek zamanlı AI’de performans, algoritmaları donanımların yetenekleriyle etkili bir şekilde hizalamaktan gelir, böylece her işlem, gecikmeleri en aza indirirken verimi en üst düzeye çıkarır.
Ancak yalnızca AI ve donanım değildir. Sistem mimarisi, özellikle ağ, gecikmeyi gerçekten etkileyebilir. CTO’muz, IoT öncüsü Sigfox’taki zamanından low-latency ağ tasarımı konusundaki derin uzmanlığına sahiptir ve ağ kurulumuzu, değerli milisaniyeleri kazanıp gecikmeyi en aza indirmek için optimize etti.
Bu nedenle, doğru donanım seçimlerinin, optimize edilmiş algoritmaların ve ağ tasariminin bir bileşimi, API’mizin tutarlı bir şekilde 300 ms’nin altında bir gecikme sağlamasını sağlar ve doğruluktan ödün vermez.
Gladia, konuşmacı diarizasyonu, sentiment analizi ve zaman damgalı transkriptler gibi özelliklerle transkriptin ötesine geçiyor. Bu araçları kullanan müşterileriniz tarafından geliştirilen bazı yenilikçi uygulamalar nelerdir?
ASR, platformlar ve dikeyler boyunca bir dizi uygulamayı kilitlemektedir ve gerçekten öncü şirketlerin, LLM’leri ve API’mizi kullanarak son iki yılda ortaya çıkan yenilikçi, rekabetçi ürünleri görmek gerçekten harikadır. İşte birkaç örnek:
- Akıllı not alma: Müşterilerimiz, profesyonellerin iş toplantalarından, öğrenci konferanslarından veya tıbbi danışmanlıklardan hızlı bir şekilde bilgi yakalamak ve organize etmek için araçlar inşa ediyor. Konuşmacı diarizasyonu ile API’miz, kimin ne dediğini belirleyebilir, böylece konuşmaları takip etmek ve görevleri atamak kolaylaşır. Zaman damgalı transkriptlerle birleştirildiğinde, kullanıcılar, kaydın belirli anlarına doğrudan atlayabilir, zamanı ve çeviriyi kaybetmeden kaybolan hiçbir şey olmaz.
- Satış etkinleştirme: Satış dünyasında, hız ve doğru içgörüler her şeydir. Ekipler, müşterilerin çağrılar veya demo’lar sırasında nasıl tepki verdiğini anlamak için sentiment analizi özelliğimizi kullanıyor. Ayrıca, zaman damgalı transkriptler, ekiplerin sohbetin kritik kısımlarına geri dönmelerini ve satış konuşmalarını daha etkili bir şekilde iyileştirmelerini veya müşteri endişelerini daha iyi bir şekilde ele almalarını sağlar. Bu kullanım durumu için özellikle, NER, satış çağrılarından otomatik olarak CRM’ye beslenecek isim, şirket ayrıntıları ve diğer bilgiler gibi bilgileri tanımlamak için anahtardır.
- Çağrı merkezi yardımı: Çağrı merkezi alanında şirketler, API’mizi, canlı olarak temsilcilere asistanlık sağlamak ve müşteri sentimentini çağrı sırasında bayraklamak için kullanıyor. Konuşmacı diarizasyonu, söylenenlerin doğru kişiye atanmasını sağlar, zaman damgalı transkriptler ise denetçilerin kritik anları veya uyum sorunlarını hızlı bir şekilde gözden geçirmelerini sağlar. Bu, yalnızca müşteri deneyimini (daha iyi çağrı çözme oranı ve kalite izleme ile) değil, aynı zamanda temsilci verimliliğini ve memnuniyetini de artırır.
Özel sözcük dağarcığı ve varlık tanıma, işletme kullanıcıları için transkript güvenilirliğini artırma konusundaki rollerini tartışabilir misiniz?
Birçok endüstri, özel terminoloji, marka adları ve benzersiz dil nüanslarına dayanmaktadır. Özel sözcük dağarcığı entegrasyonu, STT çözümünün bu özel gereksinimlere uyum sağlamasını sağlar, bu, bağlamsal nüansları yakalamak ve işletme ihtiyaçlarını doğru bir şekilde yansıtan çıktıları teslim etmek için kritiktir. Örneğin, bir dil için domaine özgü kelimelerin bir listesini oluşturmanıza olanak tanır.
Neden faydalıdır: Transkripti belirli dikeye uyarlamak, hataları minimize eder ve kullanıcı deneyimi iyileşir. Bu özellik, tıp veya finans gibi alanlarda özellikle kritiktir.
Adlandırılmış varlık tanıma (NER), isimler, kuruluşlar, yerler ve daha fazlası gibi önemli bilgileri yapılandırılmamış ses verisinden çıkarır ve tanımlar. Yapılandırılmamış verilerin ortak bir zorluğu, bu kritik bilginin kolayca erişilemez olması – transkript içinde gömülüdür.
Bunu çözmek için Gladia, yapılandırılmış Anahtar Veri Çıkarma (KDE) yaklaşımını geliştirdi. Whisper benzeri mimarisinin üretken yeteneklerini kullanarak – LLM’ler gibi – Gladia’nın KDE, bağlamı yakalar ve doğrudan ilgili bilgileri tanımlar ve çıkarır.
Bu süreç, özel sözcük dağarcığı ve NER gibi özelliklerle daha da geliştirilebilir, böylece işletmeler, CRMLERİ anahtar verilerle hızlı ve verimli bir şekilde doldurabilir.
Gerçek zamanlı transkriptin, müşteri desteği, satış ve içerik oluşturma gibi endüstrileri nasıl dönüştürdüğüne ilişkin görüşünüz nedir?
Gerçek zamanlı transkript, bu endüstrileri derinlemesine bir şekilde dönüştürüyor, üretkenlik kazançları ve somut iş avantajları sağlıyor.
İlk olarak, gerçek zamanlı transkript, destek ekipleri için bir oyun değiştiricidir. Gerçek zamanlı asistanlık, daha hızlı yanıtlar, daha akıllı ajanlar ve daha iyi sonuçlar (NSF, işleme süreleri vb.) ile çözme oranını iyileştirir. ASR sistemleri, İngilizce dışındaki dilleri ve gerçek zamanlı çeviri yapma yeteneklerini iyileştirdikçe, çağrı merkezleri gerçekten küresel bir CX elde edebilir ve daha düşük marjlarla çalışabilir.
Satışta, hız ve doğru içgörüler her şeydir. Tıpkı çağrı temsilcileri gibi, satış ekipleri de gerçek zamanlı transkript ile doğru zamanda doğru içgörülere sahip olurlar, böylece satış konuşmalarına odaklanabilir ve anlaşmaları kapatmak için daha iyi bir konumda olabilirler.
Yaratıcılar için, gerçek zamanlı transkript, özellikle canlı alt yazı ve medya etkinliklerindeki çeviri için potansiyeline sahiptir, ancak çoğu current medya müşterimiz hala asenkron transkripti tercih etmektedir, çünkü hız bu uygulamalar için kritik değildir, ancak accuracy, zaman damgalı video düzenleme ve altyazı oluşturma gibi uygulamalar için kritiktir.
Gerçek zamanlı AI transkript, büyüyen bir eğilim gibi görünüyor. Bu teknolojinin 5-10 yıl içinde nereye gideceğini görüyorsunuz?
Bu fenomeni, gerçek zamanlı AI olarak adlandırdığımız şeyin her yerde olacağını düşünüyorum. Aslında, makinelerin insanların birbirleriyle etkileşimde olduğu gibi insanlarla etkileşime girebilme yeteneğinden bahsediyoruz.
Ve herhangi bir Hollywood filmine (Her gibi) bakarsanız, gelecekte geçen, insanların zeki sistemlerle klavye yerine konuşarak etkileşimde bulundukları bir dünya görürsünüz. Bu, insanların makinelerle etkileşime girmek için sesi kullanacağına dair kolektif bir hayal gibi görünüyor.
Ses, insan kültürü ve tarihinde yazıdan çok daha uzun süredir var olan, insan bilgisini paylaşmak ve biriktirmek için birincil vektör olmuştur. Sonra yazı, bilginin daha etkili bir şekilde korunmasını sağladı, ancak şimdi GenAI sistemleri, konuşmayı anlama, yanıtlar üretme ve etkileşimlerimizi depolama yeteneği ile bu iki dünyanın en iyilerini bir araya getirdi. Bu, gerçekten insanlığın kolektif hayalidir ve her yerde olacağına inanıyorum.












