Wawancara
Nick Lahoika, Co-Founder dan CEO Vocal Image – Seri Wawancara

Nick Lahoika adalah co-founder dan CEO dari Vocal Image, sebuah startup pelatihan yang membantu orang mengembangkan keterampilan lunak. Sebagai seorang wirausaha serial dengan lebih dari 10 tahun pengalaman di IT dan pengembangan bisnis, Nick berhasil keluar dari dua ventura sebelum menciptakan Vocal Image. Perjalanan Nick sangat pribadi; dia pernah menjadi korban bullying karena ucapan yang tidak jelas di sekolah, yang menginspirasi misinya untuk membantu orang berkomunikasi lebih baik.
Setelah dipaksa meninggalkan negara asalnya setelah revolusi 2020, Nick tiba di Estonia dengan kemampuan bahasa Inggris yang minimal dan menggunakan aplikasinya sendiri untuk melatih suaranya, memperoleh putaran pendanaan pertamanya dalam waktu enam bulan. Pemenang AWS AI Challenge dan Meta x Hugging Face European AI Startup Program, Vocal Image baru-baru ini mengumpulkan dana $3,6 juta putaran benih yang dipimpin oleh Educapital (Perancis) dan berkembang menjadi lebih dari $14 juta ARR.
Anda mendirikan Vocal Image pada 2021. Apa yang menginspirasi Anda untuk membangun pelatih keterampilan lunak AI, dan apa masalah yang Anda coba selesaikan di awal?
Kecemasan berbicara telah menjadi bagian dari hidup saya selama waktu yang lama. Saya pernah menjadi korban bullying di sekolah karena ucapan yang tidak jelas, dan pengalaman itu sangat membekas pada saya. Kemudian, sebagai mahasiswa magang IT, saya harus mempresentasikan kepada klien tingkat tinggi, dan rasa takut yang sama muncul kembali.
Kemudian pada 2021, setelah revolusi gagal di Belarus, saya harus pindah ke Eropa dalam semalam. Tiba-tiba saya harus mempresentasikan kepada investor dalam bahasa Inggris, bahasa yang saya tidak bisa berbicara dengan baik. Itu sangat menakutkan, tetapi tidak ada pilihan. Saya menghabiskan jam-jam setiap hari untuk berlatih pengucapan saya menggunakan versi awal dari apa yang kemudian menjadi Vocal Image. Bahkan membutuhkan waktu beberapa minggu hanya untuk belajar mengucapkan suara “V” dengan benar sehingga saya bisa mengucapkan nama perusahaan saya sendiri.
Kami memulai dengan aplikasi yang pada dasarnya seperti YouTube, tetapi dengan perekam suara yang terintegrasi dan fitur komentar. Pengguna bisa menonton video, berlatih mengulangi kalimat, dan kemudian mendengarkan rekaman mereka sendiri. Menonton bagaimana orang menggunakan itu, kami dengan cepat menyadari bahwa mereka sangat membutuhkan umpan balik. Pengguna awal kami menunjukkan kepada kami bahwa hanya mengonsumsi konten tidak cukup untuk mendapatkan hasil nyata; mereka membutuhkan umpan balik langsung. Kami mencoba menyampaikan umpan balik melalui pelatih manusia, tetapi pendekatan itu tidak dapat diskalakan, yang membuat kami menggunakan AI.
Itu adalah wawasan pribadi saya bahwa lebih mudah bagi saya untuk berlatih presentasi pertama saya dengan platform kami daripada dengan orang. Tidak ada tekanan, tidak ada penilaian. Kebebasan itu mengubah semuanya bagi saya. Setelah saya menyelesaikan masalah saya sendiri, saya menyadari bahwa banyak orang menghadapi masalah yang sama. Lebih dari 200 juta orang mengalami kecemasan berbicara.
Sebelum Vocal Image, Anda menjalankan sebuah studio tari. Bagaimana latar belakang Anda dalam gerakan dan ekspresi mempengaruhi pendekatan Anda terhadap komunikasi dan kepercayaan diri vokal?
Saya bukanlah seorang penari; saya sebenarnya membangun bisnis yang berfokus pada ekspresi diri dan orang-orang. Itu adalah melalui pekerjaan itu bahwa saya menyadari Anda bisa mengetahui banyak tentang kepercayaan diri seseorang hanya dengan menonton mereka menari.
Gerakan juga memainkan peran besar dalam bagaimana Anda mengekspresikan diri. Cara Anda bergerak, postur Anda, pernapasan Anda, semuanya merupakan bagian dari komunikasi. Itulah di mana pelatihan AI menjadi kuat, karena dapat membantu orang melatih semua aspek tersebut dalam satu tempat.
Sebelumnya, perusahaan harus menyewa beberapa pelatih yang berbeda. Satu untuk berbicara di depan umum, satu untuk bahasa tubuh, satu untuk kepercayaan diri. Sekarang, dengan AI, semuanya terhubung. Anda bisa membangun gambaran lengkap tentang komunikasi, bukan hanya satu bagian saja.
Tidak seperti sebagian besar alat komunikasi AI, Anda memutuskan untuk tidak menggunakan ChatGPT sebagai dasar untuk pelatih Anda. Apa yang memimpin keputusan itu?
Hype sekitar ChatGPT sebenarnya menjadi titik balik besar bagi kami. Ketika itu menjadi mainstream, itu menciptakan lonjakan besar dalam kepercayaan AI, dan kami dapat memanfaatkan itu untuk membuat orang percaya pada teknologi kami.
Tapi ini adalah halnya: kami tidak ingin menggunakan itu sebagai dasar kami. Tujuan kami dari awal adalah menggunakan model unik kami untuk mengevaluasi pola suara dan ucapan orang. Kami menggunakan model bahasa besar seperti Gemini, Claude, dan ChatGPT dan basis pengetahuan, tips dan trik dari literatur komunikasi dalam model kami saat ini, tetapi mereka tidak merupakan inti dari mekanisme umpan balik kami. Dasar umpan balik kami yang sebenarnya adalah input manusia.
Rasa takut bahwa pelatihan AI terasa seperti robot itu nyata. Untuk mengatasi itu, kami membentuk komunitas dalam Vocal Image di mana pengguna dapat terhubung secara instan, berbagi tujuan umum untuk meningkatkan komunikasi, dan mendukung perjalanan satu sama lain. Dan komunitas ini terus tumbuh dan memperbaiki AI kami.
Bisakah Anda menjelaskan bagaimana pelatihan AI Anda secara eksklusif pada suara manusia berbeda dari pendekatan LLM tradisional dalam hal hasil dan autentisitas?
Kami menggunakan model bahasa besar sebagai bagian dari proses untuk evaluasi dan konteks, tetapi dasar sistem kami yang sebenarnya adalah data di baliknya. Model inti kami dilatih pada komunitas kami sendiri, yang terdiri dari orang-orang yang datang bersama untuk meningkatkan keterampilan komunikasi mereka.
AI hanya sebaik manusia yang dia pelajari dari. Dataset kami yang unik sekarang mencakup lebih dari satu juta suara manusia unik, masing-masing membawa nada, irama, dan emosi, semua yang mewakili esensi sebenarnya dari komunikasi.
Dataset Anda mencakup lebih dari satu juta suara manusia. Apa tantangan yang Anda hadapi dalam mengkurasi dan melabeli corpus yang unik ini?
Anda tidak bisa mengandalkan setiap titik data secara sama. Beberapa pengguna menilai dengan hati-hati, yang lain hanya mengklik melalui. Kami harus merancang sistem yang membedakan umpan balik yang berpikir dari kebisingan. Seiring waktu, kami belajar untuk memberikan bobot lebih pada pengguna dengan partisipasi konsisten dan penilaian yang dapat diandalkan, sambil menyaring input acak.
Bagian tersulit adalah operasional, yang melibatkan membangun ekosistem penilaian yang mengutamakan kualitas atas kuantitas. Itulah di mana komunitas kami menjadi sangat berharga. Ini bukanlah pengguna internet acak, mereka adalah orang-orang yang secara sungguh-sungguh mencoba meningkatkan keterampilan lunak mereka dan membantu orang lain melakukan hal yang sama. Semua peringkat adalah anonim, yang membantu menjaga umpan balik tidak bias dan autentik.
Mekanisme evaluasi “Tinder-like” yang berbasis komunitas sangat menarik — bagaimana loop umpan balik ini membentuk pembelajaran AI yang berkelanjutan?
Setiap peringkat, dalam setiap bahasa, menjadi bagian kecil dari kecerdasan yang memperhalus model kami. Ini adalah loop umpan balik yang hidup. Semakin banyak orang berlatih dan menilai, semakin pintar sistem menjadi dalam mengenali nuansa ucapan dan emosi, belajar bagaimana orang sebenarnya memandang kepercayaan diri, kehangatan, atau wewenang di seluruh budaya.
Apa pelajaran utama yang dipelajari selama mengembangkan model AI yang berfokus pada keterampilan lunak daripada kompetensi teknis?
Tantangan utama adalah pengukuran. Tidak ada metrik universal untuk “dapat dipercaya” atau “karismatik”. Kami harus menciptakan metrik kami sendiri.
Inilah di mana Hukum Besar Bilangan datang. Jika 100.000 orang setuju bahwa suara tertentu terdengar percaya diri atau empatik, Anda bisa mulai mempercayai persepsi kolektif itu. Seiring waktu, kami mengajarkan AI kami untuk memprediksi kualitas subjektif, hal-hal yang tidak bisa dinilai dengan benar atau salah yang sederhana. Itu adalah terobosan: belajar mengkuantifikasi apa yang selalu dianggap tidak dapat diukur.
Dengan $14 juta dalam pendapatan tahunan yang berulang dan putaran benih $3,6 juta yang baru, apa yang menjadi prioritas utama Anda untuk tahap pertumbuhan ini — apakah itu memajukan model AI, memperluas basis pengguna, atau memperdalam pengalaman komunitas?
Misi kami selalu berfokus pada manusia. Kami membantu orang berkomunikasi dengan lebih percaya diri dan autentik.
Tahap berikutnya adalah tentang menskalakan dampak itu secara global. Kami memperluas ke bahasa dan geografi baru, dan mengembangkan modul keterampilan lunak baru seperti negosiasi, mendengarkan aktif, dan fasih.
Banyak pengguna mengatakan bahwa pelatih AI terasa seperti robot atau tidak personal. Bagaimana Anda memastikan bahwa Vocal Image menyampaikan umpan balik yang resonan emosional dan sadar konteks?
Kami fokus pada hyper-personalisasi. Dari interaksi pertama, kami belajar siapa Anda, termasuk aksen, usia, konteks profesional, dan pola berbicara. Seiring waktu, kami memiliki memori, mengingat bagaimana Anda telah meningkat, di mana Anda bergelut, dan apa umpan balik yang paling beresonansi.
Itu memungkinkan AI untuk beradaptasi secara dinamis. Pengalaman itu terasa pribadi karena memang pribadi. Ini sepenuhnya dibentuk oleh data Anda dan perjalanan Anda, bukan oleh skrip generik.
Menghadap ke depan, bagaimana Anda melihat pelatihan keterampilan lunak AI berkembang ketika AI generatif dan emosional terus matang?
Pengembangan manusia selalu menjadi campuran dari natur dan nurtur. Sains mengatakan bahwa kepemimpinan sekitar setengah bawaan, setengah dipelajari. Bagian yang dipelajari sebelumnya hanya untuk eksekutif yang bisa membayar pelatih mahal. Selama waktu yang lama, perusahaan harus mengeluarkan antara $7.000 dan $25.000 per tahun untuk melatih satu pemimpin. AI mengubah itu.
Juga, berinteraksi dengan pelatih manusia akan memerlukan mempertahankan banyak pelatih yang terpisah, sedangkan pelatih AI dapat menggantikan semua itu.
Saat ini, kami menggunakan pipa model yang berbeda untuk menganalisis aspek komunikasi yang berbeda, tetapi masa depan adalah sistem tunggal yang terintegrasi yang mengevaluasi dan membimbing Anda secara holistik. Teknologi ini akan mendemokratisasi pertumbuhan. Anda tidak perlu dilahirkan dengan karisma atau memiliki anggaran perusahaan besar untuk menguasai komunikasi. Anda hanya perlu rasa ingin tahu dan akses, dan menciptakan lingkungan untuk itu berkembang adalah apa yang menggerakkan saya setiap hari.
Terima kasih atas wawancara yang luar biasa, pembaca yang ingin mempelajari lebih lanjut harus mengunjungi Vocal Image.












