Wawancara
Jean-Louis Quéguiner, Pendiri & CEO Gladia – Seri Wawancara

Jean-Louis Quéguiner adalah Pendiri dan CEO Gladia. Sebelumnya, ia menjabat sebagai Wakil Presiden Kelompok Data, AI, dan Komputasi Kuantum di OVHcloud, salah satu penyedia cloud terkemuka di Eropa. Ia memegang Gelar Magister dalam Simbolik AI dari Universitas Québec di Kanada dan Arts et Métiers ParisTech di Paris. Selama karirnya, ia telah menjabat posisi penting di berbagai industri, termasuk analisis data keuangan, aplikasi pembelajaran mesin untuk iklan digital waktu nyata, dan pengembangan API AI suara.
Gladia menyediakan transkripsi audio canggih dan solusi AI waktu nyata untuk integrasi yang mulus ke dalam produk di seluruh industri, bahasa, dan tumpukan teknologi. Dengan mengoptimalkan model ASR dan AI generatif tercanggih, ia memastikan pemrosesan ucapan dan bahasa yang akurat dan tanpa lag. Platform Gladia juga memungkinkan ekstraksi wawasan dan metadata waktu nyata dari panggilan dan pertemuan, mendukung kasus penggunaan perusahaan kunci seperti asisten penjualan dan dukungan pelanggan otomatis.
Apa yang menginspirasi Anda untuk menangani tantangan dalam teknologi speech-to-text (STT), dan apa celah yang Anda lihat di pasar?
Ketika saya mendirikan Gladia, tujuan awalnya sangat luas – sebuah perusahaan AI yang akan membuat teknologi kompleks menjadi mudah diakses. Namun, ketika kami menyelami lebih dalam, menjadi jelas bahwa teknologi suara adalah area yang paling rusak dan paling kritis untuk difokuskan.
Suara adalah pusat kehidupan sehari-hari kita, dan sebagian besar komunikasi kita terjadi melalui ucapan. Namun, alat yang tersedia untuk pengembang untuk bekerja dengan data suara tidak memadai dalam hal kecepatan, akurasi, dan harga – terutama di seluruh bahasa.
Saya ingin memperbaikinya, untuk membongkar kompleksitas teknologi suara dan mengemasnya menjadi sesuatu yang sederhana, efisien, kuat, dan mudah diakses. Pengembang tidak perlu khawatir tentang kerumitan model AI atau nuansa panjang konteks dalam pengenalan ucapan. Tujuan saya adalah menciptakan API speech-to-text kelas perusahaan yang bekerja dengan lancar, tanpa memandang model atau teknologi yang mendasarinya – sebuah solusi plug-and-play yang sebenarnya.
Apa beberapa tantangan unik yang Anda temui saat membangun solusi transkripsi untuk penggunaan perusahaan?
Ketika datang ke pengenalan ucapan, kecepatan dan akurasi – dua indikator kinerja utama dalam bidang ini – bersifat terbalik secara desain. Ini berarti bahwa meningkatkan satu akan mengorbankan yang lain, setidaknya sampai batas tertentu. Faktor biaya, sebagian besar, merupakan hasil dari pilihan penyedia antara kecepatan dan kualitas.
Ketika membangun Gladia, tujuan kami adalah menemukan keseimbangan yang tepat antara faktor-faktor ini, sembari memastikan teknologi tetap tersedia untuk startup dan SME. Dalam prosesnya, kami juga menyadari bahwa model ASR dasar seperti OpenAI’s Whisper, yang kami kerjakan secara ekstensif, memiliki bias, yang sangat condong ke arah bahasa Inggris karena data pelatihan, yang meninggalkan banyak bahasa yang kurang terwakili.
Bagaimana Gladia membedakan diri dalam pasar transkripsi AI yang padat? Apa yang membuat Whisper-Zero ASR Anda unik?
Mesin waktu nyata kami (Gladia Real Time) mencapai latensi 300 ms yang memimpin industri. Selain itu, ia dapat mengekstrak wawasan dari panggilan atau pertemuan dengan fitur “audio intelligence” tambahan, seperti pengenalan entitas bernama (NER) atau analisis sentimen.
Halusinasi dalam model AI adalah kekhawatiran signifikan, terutama dalam transkripsi waktu nyata. Bisakah Anda menjelaskan apa itu halusinasi dalam konteks STT dan bagaimana Gladia menangani masalah ini?
Halusinasi biasanya terjadi ketika model kekurangan pengetahuan atau tidak memiliki konteks yang cukup tentang topik. Meskipun model dapat menghasilkan output yang disesuaikan dengan permintaan, mereka hanya dapat merujuk pada informasi yang ada pada saat pelatihan, dan itu mungkin tidak mutakhir. Model akan membuat respons yang kohesif dengan mengisi celah dengan informasi yang terdengar masuk akal tetapi salah.
Transkripsi waktu nyata memerlukan latensi ultra-rendah. Bagaimana API Anda mencapai latensi kurang dari 300 milidetik sambil mempertahankan akurasi?
Mempertahankan latensi di bawah 300 milidetik sambil mempertahankan akurasi tinggi memerlukan pendekatan multifaset yang menggabungkan keahlian perangkat keras, optimasi algoritma, dan desain arsitektur.
Gladia melampaui transkripsi dengan fitur seperti diarization pembicara, analisis sentimen, dan transkrip bertanda waktu. Apa beberapa aplikasi inovatif yang telah Anda lihat klien Anda kembangkan menggunakan alat-alat ini?
ASR membuka berbagai aplikasi untuk platform di seluruh vertikal, dan telah luar biasa untuk melihat seberapa banyak perusahaan yang benar-benar berpionir muncul dalam dua tahun terakhir, memanfaatkan LLM dan API kami untuk membangun produk yang kompetitif dan berbasis teknologi canggih. Berikut beberapa contoh:
- Catatan pintar: Banyak klien membangun alat untuk profesional yang perlu dengan cepat menangkap dan mengatur informasi dari pertemuan kerja, kuliah mahasiswa, atau konsultasi medis. Dengan diarization pembicara, API kami dapat mengidentifikasi siapa yang mengatakan apa, membuatnya mudah untuk mengikuti percakapan dan menetapkan tindakan. Dengan transkrip bertanda waktu, pengguna dapat melompat langsung ke momen tertentu dalam rekaman, menghemat waktu dan memastikan tidak ada yang hilang dalam terjemahan.
- Pemungutan suara: Dalam dunia penjualan, kecepatan dan wawasan yang tepat sangat penting. Tim menggunakan fitur analisis sentimen kami untuk mendapatkan wawasan waktu nyata tentang bagaimana prospek merespons selama panggilan atau demo. Plus, transkrip bertanda waktu membantu tim mengunjungi kembali bagian kunci dari percakapan untuk memperbaiki pitch atau menangani kekhawatiran klien dengan lebih efektif. Untuk kasus penggunaan ini secara khusus, NER juga kunci untuk mengidentifikasi nama, detail perusahaan, dan informasi lain yang dapat diekstrak dari panggilan penjualan untuk memasuki CRM secara otomatis.
- Bantuan pusat panggilan: Perusahaan di ruang pusat kontak menggunakan API kami untuk memberikan bantuan langsung kepada agen, serta menandai sentimen pelanggan selama panggilan. Diarization pembicara memastikan bahwa hal-hal yang dikatakan ditetapkan untuk orang yang tepat, sementara transkrip bertanda waktu memungkinkan pengawas untuk meninjau momen kritis atau masalah kepatuhan dengan cepat. Ini tidak hanya meningkatkan pengalaman pelanggan – dengan tingkat resolusi panggilan yang lebih baik dan pemantauan kualitas – tetapi juga meningkatkan produktivitas dan kepuasan agen.
Bisakah Anda membahas peran kamus kustom dan pengenalan entitas dalam meningkatkan keandalan transkripsi untuk pengguna perusahaan?
Banyak industri bergantung pada terminologi khusus, nama merek, dan nuansa bahasa unik. Integrasi kamus kustom memungkinkan solusi STT untuk menyesuaikan dengan kebutuhan spesifik ini, yang sangat penting untuk menangkap nuansa kontekstual dan menghasilkan output yang akurat mencerminkan kebutuhan bisnis Anda. Misalnya, ini memungkinkan Anda untuk membuat daftar kata-kata domain-spesifik, seperti nama merek, dalam bahasa tertentu.
Menurut Anda, bagaimana transkripsi waktu nyata mengubah industri seperti dukungan pelanggan, penjualan, dan pembuatan konten?
Transkripsi waktu nyata mengubah industri ini dengan cara yang mendalam, menghasilkan peningkatan produktivitas yang luar biasa, dipasangkan dengan manfaat bisnis yang nyata.
Pertama, transkripsi waktu nyata adalah permainan yang berubah untuk tim dukungan. Bantuan waktu nyata adalah kunci untuk meningkatkan tingkat resolusi berkat respons yang lebih cepat, agen yang lebih pintar, dan hasil yang lebih baik (dalam hal NSF, waktu penanganan, dan sebagainya). Ketika sistem ASR menjadi lebih baik dan lebih baik dalam menangani bahasa non-Inggris dan melakukan terjemahan waktu nyata, pusat kontak dapat mencapai pengalaman pelanggan global yang sebenarnya dengan margin yang lebih rendah.
Transkripsi AI waktu nyata tampaknya menjadi tren yang tumbuh. Di mana Anda melihat teknologi ini menuju dalam 5-10 tahun ke depan?
Saya merasa fenomena ini, yang sekarang kita sebut transkripsi waktu nyata, akan ada di mana-mana. Pada dasarnya, apa yang kita sebutkan di sini adalah kemampuan mesin untuk berinteraksi dengan orang, dengan cara kita manusia sudah berinteraksi satu sama lain.
Terima kasih atas wawancara yang luar biasa, pembaca yang ingin mempelajari lebih lanjut dapat mengunjungi Gladia.












