Kecerdasan buatan

Vikrant Tomar, CTO dan Pendiri Fluent.ai – Seri Wawancara

Published January 13, 2021

Updated May 15, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Vikrant Tomar, adalah CTO dan Pendiri Fluent.ai, perangkat lunak pemahaman ucapan dan antarmuka pengguna suara untuk OEM perangkat dan penyedia layanan.

Apa yang awalnya menarik Anda untuk mempelajari pemodelan akustik untuk pengenalan ucapan?

Sungguh, kemampuan untuk berbicara dengan perangkat dalam cara yang sama seperti kita berbicara dengan manusia lain. Visi ini sangat menarik bagi saya. Saya mulai mempelajari pengenalan ucapan selama tahun terakhir saya di universitas. Ini juga saat saya mulai tertarik dengan penelitian, sehingga saya mengambil kursus pengenalan ucapan dan proyek penelitian yang terkait. Saya dapat menerbitkan makalah penelitian di konferensi InterSpeech, salah satu konferensi pengenalan ucapan terbesar dan paling terkenal, dari pekerjaan ini. Semua ini memotivasi saya untuk memilih penelitian pengenalan ucapan sebagai fokus jangka panjang, sehingga saya memutuskan untuk melanjutkan studi S2.

Pada tahun 2015, Anda meluncurkan Fluent.ai, bisa Anda bagikan cerita di balik startup ini?

Saya telah memiliki keinginan untuk menjadi wirausaha selama waktu yang lama. Saya, bersama dengan dua teman lain, telah mencoba memulai perusahaan setelah lulus dari universitas, namun karena beberapa alasan, upaya itu tidak berhasil. Selama S2 saya di McGill, saya terus memantau adegan startup di Montreal. Selama waktu itu, saya juga bertemu dengan orang-orang dari TandemLaunch – tempat saya menciptakan Fluent.ai. Pada saat itu, saya sudah mendekati akhir S2 saya, dan saya sedang mempertimbangkan untuk mencoba kewirausahaan lagi. Melalui pengalaman kerja, penelitian, dan asosiasi dengan grup penelitian ucapan lain, saya menyadari bahwa sebagian besar pengalaman ini telah fokus pada melakukan pengenalan ucapan dengan cara tertentu: dari ucapan ke transkripsi teks dan kemudian pemrosesan bahasa alami. Namun, ini meninggalkan kesenjangan dalam hal kemudahan penggunaan. Sebagian besar penduduk tidak dapat memanfaatkan solusi ucapan yang dikembangkan dengan cara ini. Jumlah data yang diperlukan untuk metode ini sangat besar sehingga tidak akan memiliki arti ekonomi untuk mengembangkan model terpisah untuk bahasa dengan jumlah penutur yang lebih sedikit. Selain itu, banyak dialek dan bahasa tidak memiliki bentuk tulisan yang jelas. Bahkan keluarga saya tidak dapat menggunakan alat yang dikembangkan oleh saya (mereka berbicara dalam dialek Hindi). Dengan mempertimbangkan semua ini, saya mulai memikirkan cara lain untuk membuat model ucapan, di mana jumlah data yang diperlukan lebih sedikit, dan/atau pengguna akhir dapat melatih atau memperbarui model tersebut sendiri. Saya menyadari pekerjaan yang dilakukan di KU Leuven University (KUL) yang dapat memenuhi beberapa persyaratan ini. Dengan sebagian teknologi berasal dari KUL, kami dapat mengambil langkah pertama menuju apa yang sekarang menjadi Fluent.

Bisa Anda jelaskan tentang solusi pemahaman ucapan yang intuitif dari Fluent.ai?

Solusi pengenalan ucapan dari Fluent.ai terinspirasi oleh cara manusia memperoleh dan mengenali bahasa. Sistem pengenalan ucapan konvensional pertama-tama menranskrip ucapan masukan menjadi teks, dan kemudian mengekstrak makna dari teks tersebut. Ini tidak seperti cara manusia mengenali ucapan. Ambil contoh anak-anak sebelum mereka belajar membaca dan menulis: meskipun mereka tidak tahu apa-apa tentang representasi bahasa tertulis, mereka dapat berbicara dengan mudah. Dalam cara yang sama, model jaringan saraf dalam dari Fluent.ai dapat mengekstrak makna langsung dari suara ucapan tanpa harus menranskripnya menjadi teks terlebih dahulu. Secara teknis, ini adalah Pemahaman Bahasa Lisan yang sebenarnya. Ada beberapa kelebihan dari pendekatan ini. Pengenalan ucapan tradisional adalah pendekatan yang rumit, di mana beberapa modul yang dilatih secara terpisah diintegrasikan untuk memberikan respons akhir. Ini menghasilkan solusi yang tidak optimal yang menderita karena variasi hasil untuk aksen, kebisingan, kondisi latar belakang, dan sebagainya. Sistem pengenalan niat otomatis (AIR) dari Fluent.ai dioptimalkan secara end-to-end; ini sepenuhnya arsitektur berbasis jaringan saraf, di mana semua modul dilatih bersama untuk memberikan solusi yang paling optimal. Selain itu, kami dapat menghilangkan sejumlah modul yang berat komputasi yang umum ada dalam sistem pengenalan ucapan konvensional. Ini memungkinkan kami untuk membuat sistem pengenalan ucapan dengan jejak kaki yang rendah yang dapat berjalan dengan hanya 40KB RAM pada mikrokontroler berdaya rendah yang berjalan pada 50 MHz. Akhirnya, sistem pemahaman bahasa lisan kami yang berbasis AIR dapat mengeksploitasi kesamaan antara bahasa yang berbeda dengan cara unik untuk memberikan fitur yang tidak ada bandingannya, seperti kemampuan untuk mengenali beberapa bahasa dalam model yang sama.

Apa beberapa tantangan AI dalam mengatasi masalah kebisingan ambient?

Kebisingan adalah salah satu tantangan terbesar untuk pengenalan ucapan. Apa yang membuatnya menjadi masalah yang sangat menantang adalah bahwa ada banyak jenis kebisingan yang berbeda dan mereka mempengaruhi spektrum ucapan dengan cara yang berbeda. Terkadang kebisingan juga dapat mempengaruhi respons mikrofon. Dalam banyak kasus, tidak mungkin untuk memisahkan sumber ucapan dari sumber kebisingan. Dalam beberapa kasus, kebisingan dapat menyebabkan informasi yang tersedia dalam spektrum ucapan menjadi tersembunyi, sedangkan dalam kasus lain, kebisingan dapat menghilangkan informasi yang berguna secara keseluruhan. Keduanya menghasilkan akurasi yang rendah. Sementara kebisingan yang konsisten seperti kebisingan kipas dapat dengan mudah dihilangkan, beberapa jenis kebisingan, seperti kebisingan orang berbicara di latar belakang atau musik, sangat sulit untuk dihilangkan karena cara mereka mempengaruhi spektrum ucapan.

Bisa Anda definisikan apa itu Edge AI dan bagaimana Fluent.ai menggunakan jenis AI ini?

Edge AI adalah istilah payung yang digunakan untuk mencakup sejumlah cara di mana aplikasi AI dapat dipindahkan ke perangkat berdaya rendah. Semakin banyak istilah ini digunakan untuk kasus di mana perangkat edge melakukan perhitungan cerdas tertentu sendiri. Di Fluent, kami fokus pada membawa pemahaman bahasa lisan berkualitas tinggi ke edge. Kami telah mengembangkan algoritma yang efisien yang memungkinkan perangkat komputasi berdaya rendah untuk mengenali ucapan masukan sendiri tanpa harus mengirimkan data ke server cloud untuk diproses. Kelebihannya adalah dua kali lipat: pertama, privasi pengguna tidak dikompromikan dengan streaming dan menyimpan data suara mereka ke cloud. Kedua, pendekatan ini mengurangi latensi karena data ucapan dan respons tidak perlu melakukan perjalanan antara server cloud dan perangkat.

Apa jenis teknologi pembelajaran mesin lain yang digunakan?

Fokus utama kami adalah pada pendekatan berbasis deep learning untuk pengenalan ucapan. Kami menggunakan metode RL (reinforcement learning), seperti NASIL[1], untuk menemukan arsitektur model AI baru yang belum diketahui sebelumnya (dalam arti tertentu, AI menciptakan AI). Dan kami menggunakan AutoML untuk menyetel model AI yang telah ditentukan sebelumnya untuk mencapai hasil yang dapat diandalkan untuk berbagai aplikasi, sehingga meningkatkan keandalan dan reproducibility. Kompresi model dan pendekatan matematika lainnya membantu mengoptimalkan kinerja model.

Apa yang Anda lihat terjadi dalam 5 tahun ke depan untuk pemahaman bahasa alami dan pemrosesan bahasa alami?

Saya pikir sistem akan berkembang untuk memberikan interaksi yang lebih alami. Meskipun kemajuan dalam beberapa tahun terakhir, sebagian besar sistem saat ini hanya dapat menjawab pertanyaan sederhana atau melakukan pencarian berbasis suara di internet. Kami akan melihat lebih banyak solusi yang dapat bernalar dan menjawab pertanyaan lengkap untuk seseorang, bukan hanya berfungsi sebagai mesin pencari berbasis suara yang ditingkatkan.

Aspek lain yang menarik adalah privasi. Solusi populer saat ini sebagian besar adalah perangkat yang terhubung ke internet yang mengalirkan semua data suara pengguna ke server cloud. Namun, privasi solusi ini menjadi masalah. Kami juga mulai melihat aplikasi antarmuka suara di luar elektronik konsumen, dalam pengaturan industri, ruang audio profesional, serta dalam keramahan dan ruang konferensi. Persyaratan kunci untuk aplikasi ini adalah privasi, sehingga solusi terhubung saat ini tidak memadai – sehingga kami akan melihat lebih banyak Edge AI atau solusi pemrosesan bahasa alami di perangkat.

Seperti yang saya sebutkan sebelumnya, solusi ucapan dan bahasa alami masih tidak dapat diakses oleh sebagian besar penduduk dunia. Ada banyak pekerjaan yang sedang dilakukan untuk menciptakan jenis model AI baru yang dapat dilatih dengan jumlah data yang kecil, sehingga mengurangi biaya pengembangan, dan pada gilirannya memungkinkan pengembangan model dalam bahasa dengan jumlah penutur yang lebih sedikit. Sejalan dengan ini, kami akan melihat solusi yang dapat belajar untuk mengenali beberapa bahasa dalam model yang sama. Secara keseluruhan, kami akan melihat lebih banyak penerapan model AI multibahasa yang dapat menjawab pertanyaan pengguna dalam bahasa aslinya.

Apakah ada yang lain yang Anda ingin bagikan tentang Fluent.ai?

Teknologi ucapan telah berkembang pesat dalam beberapa tahun terakhir, dan memiliki potensi pertumbuhan yang besar di jalan ahead. Di Fluent.ai, kami selalu mencari kasus penggunaan baru untuk teknologi yang sudah ada, serta terus berinovasi secara internal. Pandemi COVID-19 telah menciptakan sensitivitas yang tinggi terhadap area sentuh tinggi, seperti tombol lift, kios di restoran, dan lain-lain, yang memicu permintaan baru untuk teknologi yang diaktifkan suara. Fluent.ai berharap dapat membantu mengisi kesenjangan ini, karena solusi kami multibahasa, dan oleh karena itu lebih inklusif, dan beroperasi secara offline, menawarkan lapisan privasi tambahan. Fungsi-fungsi ini, seperti yang disebutkan, kemungkinan akan menjadi masa depan teknologi ucapan.

Terima kasih atas wawancara yang luar biasa, pembaca yang ingin mempelajari lebih lanjut harus mengunjungi r dari Fluent.ai.

[1] https://www.researchgate.net/profile/Farzaneh_Sheikhnezhad_Fard/publication/341083699_Nasil_Neural_Archit

Antoine Tardif, CEO & Founder of Unite.AI

Antoine adalah seorang pemimpin visioner dan mitra pendiri Unite.AI, didorong oleh semangat yang tak tergoyahkan untuk membentuk dan mempromosikan masa depan AI dan robotika. Seorang wirausaha serial, ia percaya bahwa AI akan sama-sama mengganggu masyarakat seperti listrik, dan sering tertangkap berbicara tentang potensi teknologi mengganggu dan AGI.

As a futurist, ia berdedikasi untuk mengeksplorasi bagaimana inovasi ini akan membentuk dunia kita. Selain itu, ia adalah pendiri Securities.io, sebuah platform yang fokus pada investasi di teknologi-teknologi canggih yang mendefinisikan kembali masa depan dan membentuk kembali seluruh sektor.

Unite.AI

Vikrant Tomar, CTO dan Pendiri Fluent.ai – Seri Wawancara

You may like