Connect with us

Wawancara

Matt Hocking, Co-Founder of WellSaid Labs – Interview Series

mm

Matt Hocking adalah co-founder dari WellSaid Labs, sebuah perusahaan terkemuka yang menyediakan generator suara AI kelas perusahaan. Ia memiliki lebih dari 15 tahun pengalaman memimpin tim dan mengirimkan solusi teknologi dalam skala besar.

Latar belakang Anda cukup entrepreneur, bagaimana Anda awalnya terlibat dalam AI?

Saya rasa saya selalu menganggap diri saya cukup entrepreneur. Saya memulai bisnis pertama saya setelah lulus kuliah dan dengan latar belakang desain produk, saya menemukan diri saya tertarik untuk membantu orang-orang dengan ide-ide awal. Selama karir saya, saya cukup beruntung untuk bekerja dengan sejumlah startup yang telah memiliki beberapa kesuksesan luar biasa. Selama pengalaman tersebut, saya telah memiliki kesempatan untuk bekerja dengan sejumlah pendiri yang hebat secara langsung, yang pada gilirannya menginspirasi saya untuk mengejar ide-ide saya sendiri sebagai pendiri. AI relatif baru bagi saya ketika saya bergabung dengan AI2; namun, pengalaman tersebut memberi saya kesempatan untuk menerapkan lensa produk dan startup saya pada beberapa penelitian yang sangat luar biasa dan membayangkan bagaimana kemajuan baru ini akan dapat membantu banyak orang dalam beberapa tahun mendatang. Tujuan saya sejak awal telah menjadi mengembangkan bisnis nyata untuk orang-orang nyata, dan saya percaya AI memiliki potensi untuk menciptakan banyak kesempatan dan efisiensi menarik di masa depan jika diterapkan dengan bijak.

Apakah Anda bisa berbagi cerita tentang bagaimana ide untuk WellSaid Labs terbentuk ketika Anda menjadi entrepreneur di The Allen Institute for AI?

Saya bergabung dengan The Allen Institute for Artificial Intelligence (AI2) sebagai Entrepreneur in Residence pada 2018. Arguably inkubator paling inovatif di dunia, AI2 menampung pikiran-pikiran tercerdas di AI yang menerapkan solusi dari tepi apa yang mungkin hari ini untuk produk yang nyata yang memecahkan masalah di seluruh dunia. Latar belakang saya dalam desain dan teknologi memupuk minat lama saya dalam bidang kreatif, dan dengan ledakan AI yang kita saksikan hari ini, saya ingin menjelajahi cara untuk menghubungkan keduanya. Saya diperkenalkan dengan Michael Petrochuk (co-founder dan CTO WellSaid Labs) saat mengembangkan aplikasi kesehatan interaktif yang memandu pasien melalui berbagai skenario sensitif. Selama proses pengembangan konten untuk pengalaman tersebut, tim saya bekerja dengan bakat suara untuk merekam ribuan baris suara untuk avatar. Ketika saya terpapar pada beberapa kemajuan yang telah dicapai Michael selama penelitiannya, kita berdua dengan cepat melihat nilai bagaimana suara teks-ke-suara (TTS) yang setara manusia dapat mengubah tidak hanya produk yang saya kerjakan tetapi juga mempengaruhi sejumlah aplikasi dan industri lainnya. Teknologi dan tooling telah bergelut untuk memenuhi kebutuhan produser yang menciptakan dengan suara sebagai medium. Kita melihat jalur untuk meletakkan teknologi ini di tangan semua kreator, memungkinkan suara menjadi bagian integral dari semua cerita.

WellSaid Labs adalah salah satu dari sedikit perusahaan yang menyediakan aktor suara dengan jalur untuk memasuki ruang suara AI. Mengapa Anda percaya itu penting untuk mengintegrasikan suara nyata ke dalam produk?

Jawaban kami untuk ini adalah dua arah: pertama, kami ingin menciptakan solusi yang melengkapi kemampuan aktor suara profesional, memperluas kesempatan untuk suara. Dan kedua, kami berusaha untuk memiliki tingkat kualitas manusia tertinggi dalam produk kami. Aktor suara kami adalah mitra kolaboratif jangka panjang dan menerima kompensasi dan bagi hasil untuk data suara mereka dan konten yang dihasilkan dengan itu. Setiap aktor suara yang kami pekerjakan untuk menciptakan avatar suara AI berdasarkan kesamaan suara mereka dibayar berdasarkan seberapa banyak suara mereka digunakan di platform kami. Kami mendorong bakat untuk bermitra dengan kami; kompensasi yang adil untuk kontribusi mereka sangat penting bagi kami.

Untuk menawarkan produk dengan kualitas manusia tertinggi di pasar, kami harus ketat tentang dari mana kami mendapatkan data kami. Proses ini memberi kami lebih banyak kontrol atas kualitas, karena kami melatih model pembelajaran dalam kami untuk berbicara baik ke setara manusia dan gaya yang relevan secara kontekstual. Kami tidak hanya menciptakan suara yang membaca input yang diberikan. Model kami menawarkan berbagai gaya suara yang melakukan apa yang ada di halaman. Apakah pengguna kami membuat voiceover dengan menggunakan avatar dari perpustakaan kami atau membuat voiceover dengan suara kustom untuk merek mereka, kami menggunakan data suara nyata untuk memastikan proses yang lancar dan platform yang mudah digunakan. Jika pelanggan kami harus memanipulasi dan mengedit suara kami di pasca-produksi, proses untuk mendapatkan output yang diinginkan akan kaku dan lama. Suara kami mengambil konteks dari konten tertulis dan memberikan pembacaan yang akurat secara kontekstual. Kami menawarkan suara untuk semua jenis kasus penggunaan – apakah itu membaca berita, membuat iklan audio, atau dukungan call center otomatis – sehingga bermitra dengan bakat suara profesional untuk setiap kasus penggunaan memberi kami konteks dan data suara berkualitas tinggi.

Kami secara teratur memperbarui dan menambahkan gaya dan aksen baru ke perpustakaan avatar kami untuk memastikan bahwa kami mewakili suara pelanggan kami. Di Studio WellSaid Labs, pelanggan dan merek dapat mengadakan audisi suara berdasarkan wilayah, gaya, dan kasus penggunaan, memungkinkan produksi konten audio yang lebih lancar dan seragam untuk kebutuhan pembuatnya. Setelah perekaman awal disampel, pengguna dapat menandai kata-kata, ejaan, dan pengucapan tertentu untuk memastikan AI secara konsisten berbicara secara spesifik untuk kebutuhan mereka.

WellSaid Labs mengklaim sebagai platform suara AI pertama yang etis. Mengapa etika AI penting bagi Anda?

Ketika adopsi AI meningkat dan menjadi lebih mainstream, ketakutan akan kasus penggunaan yang berbahaya dan aktor jahat berada di pusat setiap percakapan – dan kekhawatiran ini sayangnya divalidasi oleh kejadian dunia nyata. Suara AI tidak terkecuali; hampir setiap hari, laporan baru tentang selebriti, tokoh masyarakat atau politisi yang di-deepfake untuk iklan atau tujuan politik membuat berita utama. Meskipun peraturan federal formal mengenai teknologi ini masih berkembang, mendeteksi dan melawan aktor jahat dan penggunaan suara sintetis akan menjadi semakin sulit karena teknologi terus berkembang.

Mengingat dari AI2, di mana etika AI adalah prinsip inti, Michael dan saya memiliki percakapan ini sejak hari pertama. Mengembangkan teknologi suara AI datang dengan tanggung jawab besar mengenai persetujuan, privasi, dan keselamatan secara keseluruhan. Kami tahu bahwa kami, sebagai pengembang, harus membangun teknologi kami dengan aman, mengatasi kekhawatiran etika, dan meletakkan dasar untuk pengembangan suara sintetis di masa depan. Kami mengakui potensi teknologi suara AI untuk disalahgunakan dan mengakui tanggung jawab kami untuk mengurangi potensi penyalahgunaan produk kami. Kami perlu meletakkan dasar ini dari hari pertama daripada berlari cepat dan membuat kesalahan di sepanjang jalan. Itu tidak akan melakukan yang benar oleh pelanggan perusahaan dan aktor suara kami, yang mengandalkan kami untuk membangun produk yang berkualitas tinggi dan dapat dipercaya.

Kami sepenuhnya mendukung seruan untuk legislasi di bidang ini; namun, kami tidak akan menunggu peraturan federal untuk diberlakukan. Kami telah dan akan terus memprioritaskan praktik yang mendukung privasi, keamanan, transparansi, dan akuntabilitas.

Kami secara ketat mematuhi kode etika perusahaan kami, yang berdasarkan pada membangun dengan inovasi yang bertanggung jawab dalam setiap keputusan yang kami buat. Ini adalah dalam kepentingan terbaik pelanggan global kami – merek perusahaan.

Bagaimana Anda mengembangkan platform suara AI yang etis?

WellSaid Labs telah berkomitmen pada inovasi etis sejak awal. Kami memusatkan kepercayaan dan transparansi melalui penggunaan model data internal, persyaratan persetujuan eksplisit, program moderasi konten kami, dan komitmen kami terhadap perlindungan merek. Di WellSaid, kami bersandar pada prinsip-prinsip Responsible AI untuk membentuk keputusan dan desain kami, dan prinsip-prinsip tersebut diperluas ke penggunaan suara kami. Kode etika kami mewakili prinsip-prinsip ini sebagai Akuntabilitas, Transparansi, Privasi dan Keamanan, dan Keadilan.

Akuntabilitas: Kami mempertahankan standar ketat untuk konten yang tepat, melarang penggunaan suara kami untuk konten yang berbahaya, membenci, penipuan, atau dimaksudkan untuk memicu kekerasan. Tim Kepercayaan & Keselamatan kami mempertahankan standar ini dengan program moderasi konten yang ketat, memblokir dan menghapus pengguna yang mencoba melanggar Syarat Layanan kami.

Transparansi: Kami memerlukan persetujuan eksplisit sebelum membangun suara sintetis dengan data suara seseorang. Pengguna tidak dapat mengunggah data suara dari politisi, selebriti, atau siapa pun untuk membuat klon suara mereka kecuali kami memiliki persetujuan tertulis yang eksplisit dari orang tersebut.

Privasi dan Keamanan: Kami melindungi identitas aktor suara kami dengan menggunakan gambar stok dan alias untuk mewakili suara sintetis. Kami juga mendorong mereka untuk berhati-hati tentang bagaimana dan dengan siapa mereka berbagi asosiasi mereka dengan WellSaid Labs atau perusahaan suara sintetis lain untuk mengurangi kesempatan penyalahgunaan suara mereka.

Keadilan: Kami mengkompensasi semua aktor suara yang menyediakan data suara untuk platform kami, dan kami memberi mereka bagi hasil yang berkelanjutan untuk penggunaan suara sintetis yang kami bangun dengan data mereka.

Bersama dengan prinsip-prinsip ini, kami juga secara ketat menghormati properti intelektual. Kami tidak mengklaim kepemilikan atas konten yang disediakan oleh pengguna atau aktor suara kami. Kami memprioritaskan integritas, keadilan, dan transparansi dalam semua yang kami lakukan, memastikan bahwa teknologi suara sintetis kami digunakan secara bertanggung jawab dan etis. Kami secara aktif mencari kemitraan dengan suara dari latar belakang dan pengalaman yang beragam untuk memastikan bahwa WellSaid Labs’ perpustakaan suara mencerminkan pencipta dan audiensnya.

Komitmen kami terhadap inovasi yang bertanggung jawab dan mengembangkan teknologi suara AI dengan etika dalam pikiran membedakan kami dari yang lain di ruang ini yang mencari untuk memanfaatkan industri yang baru dan tidak diatur melalui cara apa pun. Investasi awal kami dalam etika, keselamatan, dan privasi membangun kepercayaan dan loyalitas dalam aktor suara dan pelanggan kami, yang semakin mencari produk dan layanan yang dibuat secara etis dari perusahaan yang berada di garis depan inovasi.

WellSaid Labs telah menciptakan model AI internal yang memungkinkan suara AI mereka mencapai kesetaraan manusia, dan ini telah dicapai dengan membawa kekurangan manusia ke dalam percakapan. Apa yang membuat kekurangan ini membuat AI lebih baik, dan bagaimana kekurangan ini diimplementasikan?

WellSaid Labs bukanlah hanya generator TTS lain. Di mana teknologi TTS awal tidak dapat mengenali kualitas suara manusia seperti nada, nada, dan dialek yang mengirimkan konteks dan emosi di balik kata-kata, suara WellSaid telah mencapai kesetaraan manusia, membawa kekurangan manusia yang unik ke dalam percakapan suara AI.

Ukuran kualitas suara utama kami adalah dan selalu menjadi kealamiannya. Keyakinan ini telah membentuk teknologi kami pada setiap tahap, dari perpustakaan skrip yang kami bangun hingga instruksi yang kami berikan kepada bakat dan, lebih baru-baru ini, bagaimana kami mengulangi algoritma TTS inti kami.

Kami melatih pada vocalisasi manusia yang autentik. Bakat suara kami membaca skrip mereka secara autentik dan menarik ketika mereka merekam untuk kami. Kesempurnaan suara, di sisi lain, adalah konsep mekanis yang mengarah ke output yang sempurna dan tidak alami. Ketika bakat suara profesional tampil, laju ucapan mereka berfluktuasi. Kekerasan mereka bergerak bersamaan dengan konten yang mereka baca. Pitch vokal mereka mungkin naik dalam sebuah passage yang memerlukan bacaan yang bersemangat dan jatuh lagi dalam sebuah garis yang lebih muram. Variasi dinamis ini membuat penampilan vokal manusia yang menarik.

Dengan membangun proses AI yang bekerja dalam koordinasi dengan penampilan dinamis bakat profesional kami, kami telah membangun platform TTS yang benar-benar alami. Kami mengembangkan sistem TTS panjang pertama dengan kontrol prediktif di seluruh proses kreatif. Perpustakaan fonetik kami memegang koleksi data audio yang beragam, memungkinkan pengguna untuk menggabungkan petunjuk vokal tertentu, seperti bimbingan pengucapan atau kontrol, ke dalam model selama fase produksi. Dalam satu platform, pengguna WellSaid dapat merekam, mengedit, dan menggayakan voiceover mereka tanpa perlu mengimpor data eksternal.

Apakah Anda bisa membahas beberapa tantangan di balik membangun perusahaan TTS AI?

Pengembangan teknologi suara AI telah menciptakan sebuah setangan baru hambatan bagi produser dan konsumennya. Salah satu tantangan utama adalah tidak terjebak dalam kebisingan dan hiruk pikuk yang membanjiri sektor AI. Sebagai teknologi baru dan menarik, banyak organisasi mencoba untuk memanfaatkan perkembangan suara AI jangka pendek. Kami ingin memberikan suara untuk semua orang, dipandu oleh prinsip etika sentral dan autentisitas. Ketaatan pada autentisitas ini dapat menunda pengembangan dan penerapan teknologi kami, tetapi memperkuat keamanan dan keamanan suara WellSaid dan data mereka.

Tantangan lain dalam mengembangkan platform TTS kami adalah mengembangkan pedoman persetujuan khusus untuk memastikan bahwa organisasi atau aktor individu tidak menyalahgunakan teknologi kami. Untuk mengatasi tantangan ini, kami mencari kemitraan kolaboratif jangka panjang dan terlibat secara penuh dengan pengembangan voiceover untuk meningkatkan akuntabilitas, transparansi, dan keamanan pengguna. Kami secara aktif mencari kemitraan dengan bakat suara dari berbagai latar belakang, organisasi, dan pengalaman untuk memastikan bahwa perpustakaan suara WellSaid Labs mencerminkan pencipta dan audiensnya. Proses ini dirancang untuk menjadi sengaja dan detail-oriented untuk memastikan bahwa teknologi kami digunakan secara aman dan etis, yang dapat memperlambat timeline pengembangan dan peluncuran.

Apa visi Anda untuk masa depan suara AI generatif?

Selama waktu yang lama, teknologi suara AI belum mencapai kualitas yang cukup tinggi untuk memungkinkan perusahaan menciptakan konten yang bermakna dalam skala besar. Sekarang bahwa teknologi audio tidak lagi memerlukan peralatan dan perangkat keras yang mahal, semua konten tertulis dapat diproduksi dan dipublikasikan dalam format audio untuk menciptakan pengalaman yang menarik dan multi-modal.

Hari ini, suara AI dapat menghasilkan audio yang mirip manusia dan menangkap nuansa yang diperlukan untuk membuat cerita digital lebih dapat diakses dan alami. Masa depan suara AI generatif akan menjadi pengalaman yang dapat didengar yang menyentuh setiap aspek kehidupan kita. Ketika teknologi terus berkembang, kita akan melihat suara sintetis yang semakin alami dan ekspresif yang membatasi garis antara suara manusia dan mesin – membuka pintu baru untuk bisnis, komunikasi, aksesibilitas, dan bagaimana kita berinteraksi dengan dunia di sekitar kita.

Perusahaan akan menemukan peningkatan personalisasi dalam antarmuka suara AI dan menggunakannya untuk membuat interaksi dengan asisten virtual lebih imersif dan ramah pengguna. Peningkatan ini sudah terjadi, dari agen call center pintar hingga drive-thru makanan cepat saji. Pembuatan konten, termasuk iklan, pemasaran produk, narasi berita, podcast, buku audio, dan multimedia lainnya, akan melihat efisiensi yang meningkat dengan menggunakan alat untuk mengembangkan konten yang menarik – pada akhirnya meningkatkan lift dan pendapatan untuk organisasi, terutama sekarang model multibahasa dapat memperluas jangkauan perusahaan dari satu titik asal ke kehadiran global. Tim produksi akan menemukan manfaat besar dalam suara sintetis untuk menciptakan suara yang disesuaikan dengan kebutuhan merek atau disesuaikan dengan pendengar.

Sebelum pengenalan AI, teknologi TTS kekurangan kemampuan emosi, intonasi, dan pengucapan manusia yang penting untuk menceritakan cerita penuh dalam skala besar dan dengan mudah. Sekarang, TTS yang ditenagai AI menawarkan pengalaman yang lebih imersif dan dapat diakses, termasuk kemampuan berbicara waktu nyata dan agen percakapan interaktif.

Mencapai kemampuan suara yang mirip manusia telah menjadi perjalanan, tetapi sekarang bahwa itu dapat dicapai, kita menyaksikan cakupan penuh suara AI untuk menciptakan nilai bisnis nyata bagi organisasi.

Terima kasih atas wawancara yang luar biasa, pembaca yang ingin mempelajari lebih lanjut harus mengunjungi WellSaid Labs.

Antoine adalah seorang pemimpin visioner dan mitra pendiri Unite.AI, didorong oleh semangat yang tak tergoyahkan untuk membentuk dan mempromosikan masa depan AI dan robotika. Seorang wirausaha serial, ia percaya bahwa AI akan sama-sama mengganggu masyarakat seperti listrik, dan sering tertangkap berbicara tentang potensi teknologi mengganggu dan AGI.

As a futurist, ia berdedikasi untuk mengeksplorasi bagaimana inovasi ini akan membentuk dunia kita. Selain itu, ia adalah pendiri Securities.io, sebuah platform yang fokus pada investasi di teknologi-teknologi canggih yang mendefinisikan kembali masa depan dan membentuk kembali seluruh sektor.