Wawancara
Pavel Osokin, Co-Founder & CEO of AMAI – Interview Series

Pavel Osokin adalah Co-Founder & CEO dari AMAI, sebuah startup yang berbasis di San Francisco yang memproduksi mesin suara AI. Pavel memimpin operasi dan strategi Amai dengan ambisi profesional untuk menginstal teknologi suaranya ke setiap ponsel di dunia. Di AMAI mereka mengembangkan suara AI yang tidak dapat dibedakan dari ucapan manusia nyata oleh 97% pengguna.
Anda telah menjadi seorang wirausaha seumur hidup dengan meluncurkan perusahaan pertama Anda pada usia 13 tahun, apa yang merupakan upaya pertama Anda dalam bisnis dan apa yang Anda rasakan memotivasi mindset wirausaha ini?
Saya tidak benar-benar menyebutnya sebagai perusahaan, tetapi saya membuat uang pertama saya dengan menjual kembali beberapa barang atau hanya mencuci mobil di jalan dengan ember. Motivasi saya adalah saya ingin memiliki Coke atau Snickers, dan orang tua saya tidak memiliki uang. Saya bisa menunggu uang untuk muncul atau menghasilkannya sendiri. Menunggu tidak menarik bagi saya.
Apakah Anda bisa berbagi cerita tentang asal-usul AMAI?
Saya bertanya kepada mitra saya, “Apa yang dibutuhkan perusahaan di seluruh dunia?” Dalam percakapan itu, saya menyadari bahwa setiap bisnis mencari “penjualan”. Kami memulai membuat robot yang dapat berkomunikasi dengan pelanggan dan menjual produk melalui surat dan pesan. Di sisi lain, itu tidaklah baru karena banyak chatbot yang tersedia. Jadi, kami pikir jika robot ini juga bisa membuat panggilan, itu akan keren. Karena ada beberapa solusi yang baik di pasar, kami membuat prototipe suara sintetis kami sendiri, dan setelah penjualan pertama, kami meninggalkan robot dan fokus pada TTS.
Apa yang dimaksud dengan AMAI secara spesifik?
Ini berdiri untuk I’m AI (Saya adalah kecerdasan buatan).
Apakah Anda bisa membahas beberapa tantangan di balik perancangan teknologi Text-to-speech yang canggih?
Merancang teknologi TTS yang canggih menawarkan beberapa tantangan. Yang pertama adalah mengumpulkan dataset. Melatih jaringan neural memerlukan suara perempuan dan laki-laki dengan berbagai usia, dan semakin banyak, semakin baik. Kedua, Anda perlu mencapai kesamaan yang sangat dekat dengan suara alami. Metode terbaik adalah menguji berbagai model pembelajaran mesin dan terus bereksperimen dengan berbagai kasus penggunaan suara: khususnya, Anda perlu menemukan sampel yang paling bermasalah dan memprosesnya secara terpisah. Berbicara tentang tantangan jangka panjang, bisa sulit untuk menilai apakah suara telah menjadi lebih baik atau lebih buruk, dan dalam arah mana itu harus ditingkatkan.
Apa yang menjadi beberapa tantangan di balik pengenalan ucapan ketika manusia berinteraksi dengan suara AI AMAI?
Ada ratusan perusahaan yang bekerja pada pengenalan suara karena lebih mudah dikembangkan. Masalah yang saat ini tidak memiliki solusi adalah pengenalan suara anak. Anak-anak memiliki banyak karakteristik ucapan pada usia muda, sehingga sulit untuk mempertimbangkan semua hal itu. Namun, kami telah bekerja pada solusi untuk masalah ini, dan kami sangat dekat untuk mengumumkan hasilnya – sehingga segera, AI kami tidak akan memiliki masalah berinteraksi tidak hanya dengan orang dewasa, tetapi juga dengan anak-anak.
Apa yang menjadi beberapa kasus penggunaan populer untuk AMAI?
Saat ini, itu adalah dubbing buku audio dan penggunaan perusahaan di pusat panggilan.
Apa bahasa yang saat ini ditawarkan, dan apa bahasa yang saat ini sedang dikerjakan?
Sistem multi-pembicara kami mencakup dua bahasa, Rusia dan Inggris. Ideanya adalah suara yang dibuat dalam satu bahasa dapat berbicara semua bahasa lain dalam model kami juga. Saat ini, kami mengumpulkan data untuk 40 bahasa lagi, dan sangat segera kami akan memiliki 42.
Apa visi Anda untuk masa depan asisten suara AI?
Saya percaya bahwa asisten suara akan berpindah ke metaverse, dan kami saat ini mempelajari kesempatan ini. Jika Anda mengintegrasikan asisten dengan speaker pintar atau browser web, lebih banyak orang akan menggunakan pencarian suara dan berinteraksi dengan asisten setiap hari. Anda bisa berbicara dengan kulkas atau TV.
Apakah ada yang lain yang Anda ingin bagikan tentang AMAI?
AMAI hanya menggunakan teknologi proprietary sendiri.
Terima kasih atas wawancara, pembaca yang ingin mempelajari lebih lanjut harus mengunjungi AMAI.












