Wawancara
Dylan Fox, CEO & Founder of AssemblyAI – Interview Series

Dylan Fox adalah CEO & Founder dari AssemblyAI, sebuah platform yang secara otomatis mengubah file audio dan video serta aliran audio langsung menjadi teks dengan menggunakan Speech-to-Text APIs dari AssemblyAI.
Apa yang awalnya menarik Anda ke machine learning?
Saya memulai dengan belajar cara memprogram dan menghadiri Python Meetups di Washington DC, tempat saya bersekolah. Melalui kursus kuliah, saya menemukan diri saya lebih condong ke arah pemrograman tipe algoritma, yang secara alami membawa saya ke machine learning dan NLP.
Sebelum mendirikan AssemblyAI, Anda adalah Senior Software Engineer di Cisco, apa yang Anda kerjakan?
Di Cisco, saya adalah Senior Software Engineer yang fokus pada Machine Learning untuk produk kolaborasi mereka.
Bagaimana pekerjaan Anda di Cisco dan masalah dengan sumber teknologi pengenalan ucapan menginspirasi Anda untuk meluncurkan AssemblyAI?
Dalam beberapa pekerjaan sebelumnya, saya memiliki kesempatan untuk bekerja pada banyak proyek AI, termasuk beberapa proyek yang memerlukan pengenalan ucapan. Tapi semua perusahaan yang menawarkan pengenalan ucapan sebagai layanan sangat kuno, sulit untuk membeli dari mereka, dan menggunakan teknologi AI yang sudah ketinggalan zaman.
Ketika saya menjadi lebih dan lebih tertarik dengan penelitian AI, saya menyadari bahwa ada banyak pekerjaan yang dilakukan dalam bidang pengenalan ucapan dan seberapa cepat penelitian itu membaik. Jadi itu adalah kombinasi dari faktor-faktor yang menginspirasi saya untuk berpikir, “Bagaimana jika Anda bisa membangun perusahaan API gaya Twilio yang menggunakan penelitian AI terbaru yang jauh lebih mudah diakses oleh pengembang untuk model AI pengenalan ucapan, dengan pengalaman pengembang yang jauh lebih baik.”
Dan dari sana, ide untuk AssemblyAI tumbuh.
Apa tantangan terbesar di balik membangun teknologi pengenalan ucapan yang akurat dan dapat diandalkan?
Biaya dan talenta adalah tantangan terbesar bagi perusahaan mana pun untuk mengatasi ketika membangun teknologi pengenalan ucapan yang akurat dan dapat diandalkan.
Data yang diperlukan sangat mahal untuk diperoleh, dan Anda biasanya memerlukan ratusan ribu jam untuk membangun sistem pengenalan ucapan yang kuat. Tidak hanya itu, kebutuhan komputasi sangat besar untuk melatih. Dan menyajikan model-model ini dalam produksi juga sangat mahal, dan memerlukan talenta khusus untuk mengoptimalkan dan membuatnya ekonomis.
Membangun teknologi ini juga memerlukan keterampilan khusus yang sulit ditemukan. Itu adalah alasan besar mengapa pelanggan datang kepada kami untuk model AI yang kuat yang kami teliti, latih, dan terapkan secara internal. Mereka mendapatkan akses ke tahun-tahun penelitian tentang model AI terbaru untuk ASR dan NLP, semua dengan API sederhana.
Di luar hanya menerjemahkan konten audio dan video, AssemblyAI menawarkan model tambahan, dapatkah Anda membahas apa model-model tersebut?
Suite model AI kami meluas beyond hanya transkripsi waktu nyata dan asinkron. Kami menyebut model-model tambahan ini sebagai model Audio Intelligence karena mereka membantu pelanggan menganalisis dan memahami data audio dengan lebih baik.
Model Summarization kami menyediakan ringkasan keseluruhan, serta ringkasan waktu-kode yang secara otomatis membagi dan menghasilkan ringkasan untuk setiap “bab” ketika topik dalam percakapan berubah (mirip dengan bab di YouTube).
Model Sentiment Analysis kami mendeteksi sentimen setiap kalimat ucapan dalam file audio. Setiap kalimat dalam transkrip dapat ditandai sebagai Positif, Negatif, atau Netral.
Model Entity Detection kami mengidentifikasi berbagai entitas yang disebutkan dalam file audio, seperti nama orang atau perusahaan, alamat email, tanggal, dan lokasi.
Model Topic Detection kami melabeli topik yang dibicarakan dalam audio dan video. Label topik yang diprediksi mengikuti taksonomi IAB standar, yang membuatnya cocok untuk targeting kontekstual.
Model Content Moderation kami mendeteksi konten sensitif dalam file audio dan video — seperti ucapan kebencian, kekerasan, isu sosial sensitif, alkohol, obat-obatan, dan lain-lain.
Apa beberapa kasus penggunaan terbesar untuk perusahaan yang menggunakan AssemblyAI?
Kasus penggunaan terbesar perusahaan untuk AssemblyAI meliputi empat kategori: teleponi, video, pertemuan virtual, dan media.
CallRail adalah contoh pelanggan yang baik di ruang Telephony, yang menggunakan model AI AssemblyAI — Core Transcription, Automatic Transcript Highlights, dan PII Redaction — untuk menyampaikan solusi Intelijen Percakapan yang kuat kepada pelanggannya.
Intinya, CallRail sekarang dapat secara otomatis menyajikan dan mendefinisikan konten kunci dalam panggilan telepon mereka kepada pelanggannya dalam skala besar — konten kunci seperti permintaan pelanggan khusus, pertanyaan yang sering diajukan, dan kata-kata serta frasa yang sering digunakan. Model PII Redaction kami membantu mereka secara otomatis mendeteksi dan menghapus data sensitif yang ditemukan dalam teks transkrip (misalnya nomor keamanan sosial, nomor kartu kredit, alamat pribadi, dan lain-lain).
Kasus penggunaan Video meliputi platform streaming video hingga editor video seperti Veed, yang menggunakan model Core Transcription AssemblyAI untuk mempermudah proses editing video bagi pengguna. Veed memungkinkan penggunanya untuk menerjemahkan video mereka dan mengeditnya langsung menggunakan kapten.
Dalam Pertemuan Virtual, perusahaan perangkat lunak transkripsi pertemuan seperti Fathom menggunakan AssemblyAI untuk membangun fitur cerdas yang membantu penggunanya menerjemahkan dan menyoroti momen-momen kunci dari panggilan Zoom mereka, memfasilitasi keterlibatan pertemuan yang lebih baik dan menghilangkan tugas-tugas yang membosankan selama dan setelah pertemuan (misalnya mengambil catatan).
Dalam Media, kita melihat platform hosting podcast, misalnya, menggunakan model Content Moderation dan Topic Detection kami sehingga mereka dapat menawarkan alat iklan yang lebih baik untuk kasus keamanan merek dan memonetisasi konten yang dihasilkan pengguna dengan iklan dinamis.
AssemblyAI baru-baru ini mengumpulkan dana $30M Series B. Bagaimana ini akan mempercepat misi AssemblyAI?
Kemajuan yang dibuat dalam bidang AI sangat menggembirakan. Tujuan kami adalah untuk memperkenalkan kemajuan ini kepada setiap pengembang dan tim produk di internet — melalui set API sederhana. Ketika kami terus melakukan penelitian dan melatih Model AI Terbaru untuk tugas ASR dan NLP (seperti pengenalan ucapan, ringkasan, identifikasi bahasa, dan banyak tugas lainnya), kami akan terus memperkenalkan model AI ini kepada pengembang dan tim produk melalui API sederhana — yang tersedia secara gratis.
AssemblyAI adalah tempat di mana pengembang dan tim produk dapat datang untuk mendapatkan akses mudah ke model AI canggih yang mereka butuhkan untuk membangun produk, layanan, dan perusahaan baru yang menarik.
Selama enam bulan terakhir, kami telah meluncurkan dukungan ASR untuk 15 bahasa baru — termasuk Spanyol, Jerman, Perancis, Italia, Hindi, dan Jepang, merilis perbaikan besar untuk Model Summarization kami, Model ASR Waktu Nyata, Model Content Moderation, dan perbaruan produk tak terhitung.
Kami belum menggunakan dana Series A kami, tetapi pendanaan baru ini akan memberi kami kemampuan untuk mempercepat upaya kami — tanpa mengorbankan jalur kami.
Dengan pendanaan baru ini, kami akan dapat mempercepat jalur produk kami, membangun infrastruktur AI yang lebih baik untuk mempercepat mesin penelitian dan inferensi kami, dan memperluas tim penelitian AI kami — yang saat ini termasuk peneliti dari DeepMind, Google Brain, Meta AI, BMW, dan Cisco.
Apakah ada yang lain yang ingin Anda bagikan tentang AssemblyAI?
Misi kami adalah untuk membuat Model AI Terbaru tersedia untuk pengembang dan tim produk dalam skala besar melalui API sederhana.
Terima kasih atas wawancara yang luar biasa, pembaca yang ingin mempelajari lebih lanjut harus mengunjungi AssemblyAI.












