Wawancara

Nikola Mrksic, Co-founder dan CEO PolyAI – Seri Wawancara

Published February 18, 2021

Updated April 28, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Nikola Mrksic adalah co-founder dan CEO dari PolyAI, sebuah penyedia terkemuka asisten suara siap perusahaan untuk layanan pelanggan otomatis.

Apa yang awalnya menarik Anda ke AI?

Saya telah tertarik dengan matematika dan ilmu komputer sejak usia dini. Selama studi saya di Cambridge, saya mendapatkan kesempatan untuk bekerja dengan beberapa peneliti machine learning terkemuka, termasuk Steve Young dan Zoubin Ghahramani. Steve membujuk saya untuk bergabung dengan startup-nya, VocalIQ, untuk bekerja pada pembangunan sistem dialog suara. Kemudian, saya juga melakukan PhD dengan Steve, bekerja pada pembangunan model pemahaman bahasa yang didorong data yang bekerja di berbagai kasus penggunaan dan bahasa. AI konversasional adalah bidang kerja yang sangat sulit dan kompleks, dengan banyak temuan ilmiah dan teknik yang masih belum tercapai, dan itu telah membuat saya sibuk sejak saat itu.

Pada 2017, Anda meluncurkan PolyAI, sebuah perusahaan AI konversasional, bisa Anda diskusikan cerita di balik PolyAI?

Co-founder saya, Shawn Wen, Eddy Su, dan saya melakukan PhD kami di Cambridge pada waktu yang sama. Kami telah bekerja pada sistem dialog selama bertahun-tahun, tetapi kami segera menyadari bahwa jenis sistem canggih yang kami kerjakan memiliki sangat sedikit aplikasi komersial. Jadi kami bersama-sama untuk menciptakan solusi AI konversasional yang akan bermanfaat di dunia nyata. Kami melihat kesempatan untuk sistem dialog konversasional, multi-turn, transaksional yang dapat berinteraksi dengan orang sungguhan dalam kehidupan sehari-hari.

Kami fokus pada layanan pelanggan karena kami merasa kemampuan teknologi saat ini dan kebutuhan pelanggan sangat sesuai.

Bisakah Anda diskusikan beberapa teknologi machine learning dan pemrosesan bahasa alami yang digunakan?

Rahasia utama kami adalah kumpulan model encoder propietary yang berbeda. Kami telah melakukan pra-pelatihan mereka pada miliaran percakapan alami, sehingga mereka dapat mengekstrak intent bahkan ketika input suara menggunakan slang atau idiom, misalnya. Ini sangat penting untuk berkomunikasi melalui telepon. Pelanggan tidak berbicara dalam kata kunci; mereka menceritakan kisah, menginterupsi, bertanya, dan umumnya hanya ingin mengambil alih percakapan.

Kami baru-baru ini mengumumkan model ConVEx kami, sebuah pengextractor entitas yang sangat efisien data, yang memungkinkan kami untuk mengekstrak nilai dari percakapan dengan akurat.

Proses orkestrasi ASR kami melibatkan penggunaan platform pengenalan suara yang diperhalus untuk menetralisir kebisingan yang disebabkan oleh aksen yang berbeda, serta memperhalus untuk konteks yang berbeda.

Kami juga telah mengembangkan perpustakaan kebijakan dialog yang cukup kuat dengan kasus penggunaan yang telah dirancang sebelumnya yang mencakup semua transaksi layanan pelanggan yang umum, sehingga kami dapat memulai asisten suara baru untuk klien dengan sangat cepat.

Menurut Anda, apa yang membedakan produk AI konversasional yang baik dengan yang buruk?

Produk yang baik akan secara konsisten memahami apa yang dimaksud pengguna dan tidak akan pernah membuat pengguna mengulangi diri. Panggilan sering terjadi dalam lingkungan yang bising, sehingga produk perlu tahan terhadap input yang berantakan. Ketika merek mencapai pasar yang luas, produk perlu memahami berbagai aksen dan cara mengungkapkan intent. Keduanya memerlukan produk untuk menjamin kemampuan pengenalan suara yang kuat, klasifikasi intent yang tangguh, dan ekstraksi entitas.

Produk yang hebat akan secara aktif melibatkan pengguna. Ini akan mengikuti jalur pemikiran pengguna dan dapat menangani kasus yang kompleks, sehari-hari di mana pengguna mungkin berbagi beberapa intent dan potongan informasi secara bersamaan, dan mereka mungkin melompat antara konteks yang berbeda. Ini memerlukan klasifikasi multi-label yang tangguh dan manajemen konteks.

Produk yang menarik akan menampilkan karakteristik manusia tanpa terlalu robotik. Ini berarti interaksi yang gesit, suara yang asli, umpan balik yang terus-menerus, dan derajat acak dan ketidaksempurnaan.

Akhirnya, produk AI konversasional yang hebat akan berinteraksi dengan pengguna di mana pun mereka berada dan menawarkan pengalaman yang mulus, platform-spesifik, yang mungkin mencakup suara, SMS, obrolan, atau platform pesan sosial. Paradigma interaksi harus memeluk spesifisitas setiap platform komunikasi.

Apa keuntungan menggunakan AI konversasional dibandingkan dengan mencoba mengalihkan pertanyaan ke chatbot?

Pengalaman pelanggan sangat kritis dan telah menjadi penggerak utama untuk retensi. Prioritas utama harus membuatnya mudah bagi pelanggan untuk melakukan apa yang mereka butuhkan.

Telepon masih merupakan saluran yang paling disukai pelanggan untuk menghubungi perusahaan. Hingga 65% dari semua interaksi pelanggan masih terjadi melalui telepon. Selama pandemi COVID-19, pusat kontak telah dipaksa ke batas dengan lebih banyak pelanggan yang pernah menghubungi untuk dukungan.

Tentu saja, pengalaman yang hebat memungkinkan pelanggan untuk berkomunikasi dengan cara apa pun yang mereka sukai, sehingga bagi siapa pun yang lebih suka komunikasi asinkron, kami membuatnya sederhana bagi merek untuk menawarkan tingkat pengalaman yang sama di seluruh saluran teks.

Seberapa besar tantangan mendeteksi intent dari apa yang pelanggan coba katakan?

Ada beberapa tantangan dalam memahami pelanggan melalui saluran suara. Memahami dengan akurat dan konsisten makna pengguna memerlukan beberapa komponen yang bekerja dengan baik bersama.

Pertama, pengenalan suara sulit, terutama ketika orang berbicara dari lingkungan yang bising, seperti ketika mereka berbicara melalui speakerphone, atau ketika mengemudi melalui lalu lintas atau terowongan. Pengenalan suara juga bisa sulit di wilayah dengan aksen dan dialek yang berbeda. Kami telah mengembangkan cara yang efektif untuk membias pengenalan suara model untuk konteks yang diberikan untuk mengoptimalkan pengenalan suara.

Karena model ConveRT kami telah dilatih pada jumlah percakapan yang sangat besar, itu dapat mendeteksi intent pada sinyal lemah, seperti halnya manusia umumnya dapat memahami apa yang dikatakan seseorang, bahkan jika kita melewatkan satu atau dua kata.

Pertimbangan lain adalah memahami kapan pengguna ingin melakukan beberapa tindakan sekaligus. Misalnya, seseorang mungkin mengatakan, “Saya kehilangan kartu saya. Bisakah Anda memberi tahu saya jika itu telah digunakan dan memblokirnya?”. Dalam hal ini, model perlu mengenali dua intent dan bertindak atas mereka dalam urutan yang masuk akal.

Model juga perlu dapat mengekstrak dan memahami entitas yang diberikan oleh pelanggan. Misalnya, “Apakah Anda memiliki meja untuk saya, istri saya, dan 2 anak saya pada hari Sabtu?”. Intensi permukaan di sini adalah memeriksa ketersediaan meja, tetapi model perlu mengambil tanggal (Sabtu) dan jumlah orang (4) dan informasi lain yang mungkin relevan (misalnya, anak-anak hanya diizinkan di area restoran, dan tidak dapat duduk di bar).

Akhirnya, percakapan tidak selalu linier. Pelanggan mungkin menginterupsi dengan pertanyaan yang tidak terkait dengan prompt asisten suara, sehingga asisten perlu dapat “mendengarkan” untuk satu jenis input, sambil terbuka untuk pemicu yang berbeda seperti FAQ atau perubahan informasi yang sebelumnya diberikan oleh pengguna.

Apa proses dan timeline yang diperlukan untuk perusahaan yang ingin meluncurkan bot AI konversasional dengan PolyAI?

Kami ada di sini untuk menyediakan asisten suara yang memiliki dampak bisnis yang nyata. Jadi kami memulai setiap keterlibatan dengan penemuan di mana kami membantu klien untuk mengidentifikasi dan merumuskan tujuan CX, metrik kunci, dan proses dukungan. Ini adalah tempat kami memetakan perjalanan yang asisten suara akan pandu pelanggan melalui. Ini, plus model ConveRT yang telah dilatih sebelumnya, berarti kami tidak memerlukan jumlah besar data percakapan dari klien.

Dari sana, kami dapat mengembangkan asisten suara dengan sangat sedikit input yang diperlukan dari klien, sehingga tidak memerlukan banyak dari tim IT internal.

Tergantung pada kompleksitas, kami dapat memulai bukti nilai dalam waktu 2 minggu, dan penerapan penuh dalam 2 bulan.

Terima kasih atas wawancara yang luar biasa, pembaca yang ingin mempelajari lebih lanjut harus mengunjungi PolyAI.

Unite.AI

Nikola Mrksic, Co-founder dan CEO PolyAI – Seri Wawancara

You may like