potongan Matt Hocking, Salah Satu Pendiri WellSaid Labs - Seri Wawancara - Unite.AI
Terhubung dengan kami

wawancara

Matt Hocking, Salah Satu Pendiri WellSaid Labs – Seri Wawancara

mm
Updated on

Matt Hocking adalah salah satu pendiri Lab yang dikatakan dengan baik, AI Voice Generator tingkat perusahaan terkemuka. Ia memiliki pengalaman lebih dari 15 tahun dalam memimpin tim dan memberikan solusi teknologi dalam skala besar.

Latar belakang Anda cukup berwirausaha, bagaimana awalnya Anda terlibat dalam AI?

Saya rasa saya selalu menganggap diri saya cukup berwirausaha. Saya memulai bisnis pertama saya setelah lulus kuliah dan dengan latar belakang desain produk, saya tertarik untuk membantu orang-orang dengan ide-ide tahap awal. Sepanjang karier saya, saya cukup beruntung bisa bekerja dengan sejumlah startup yang telah mencapai kemajuan luar biasa. Selama pengalaman tersebut, saya bertemu langsung dengan banyak pendiri hebat, yang kemudian menginspirasi saya untuk mewujudkan ide-ide saya sendiri sebagai seorang pendiri. AI relatif baru bagi saya ketika saya bergabung dengan AI2; namun, pengalaman tersebut memberi saya kesempatan untuk menerapkan produk dan sudut pandang startup saya pada beberapa penelitian yang benar-benar menakjubkan dan membayangkan bagaimana kemajuan baru ini akan dapat membantu banyak orang di tahun-tahun mendatang. Tujuan saya sejak awal adalah mengembangkan bisnis nyata untuk manusia, dan saya yakin AI memiliki potensi untuk menciptakan banyak peluang menarik dan efisiensi di masa depan jika diterapkan dengan bijaksana.

Bisakah Anda berbagi cerita tentang bagaimana ide WellSaid Labs dicetuskan saat Anda menjadi wirausaha di Institut Allen untuk AI?

Saya bergabung dengan The Allen Institute for Artificial Intelligence (AI2) sebagai Entrepreneur in Residence pada tahun 2018. Bisa dibilang sebagai inkubator paling inovatif di dunia, AI2 menampung para pemikir paling cerdas di bidang AI yang menerapkan solusi dari apa yang mungkin dilakukan saat ini hingga produk nyata yang memecahkan masalah. permasalahan di seluruh dunia. Latar belakang saya di bidang desain dan teknologi memupuk minat lama terhadap bidang kreatif, dan dengan booming AI yang kita semua saksikan saat ini, saya ingin mencari cara untuk menghubungkan keduanya. Saya diperkenalkan dengan Michael Petrochuk (salah satu pendiri dan CTO WellSaid Labs) saat mengembangkan aplikasi perawatan kesehatan interaktif yang memandu pasien melalui berbagai skenario sensitif. Selama proses pengembangan konten untuk pengalaman ini, tim saya bekerja dengan pengisi suara untuk merekam terlebih dahulu ribuan baris sulih suara untuk avatar. Ketika saya melihat beberapa terobosan yang dicapai Michael selama penelitiannya, kami berdua dengan cepat melihat manfaat dari bagaimana human-parity text-to-speech (TTS) dapat mengubah tidak hanya produk yang sedang saya kerjakan tetapi juga berdampak pada sejumlah produk. aplikasi dan industri lainnya. Teknologi dan peralatan telah berjuang untuk memenuhi kebutuhan para produsen yang berkreasi dengan suara sebagai medianya. Kami melihat adanya cara untuk menempatkan teknologi ini di tangan semua kreator, sehingga suara menjadi bagian integral dari semua cerita.

WellSaid Labs adalah salah satu dari sedikit perusahaan yang menyediakan jalan bagi aktor suara untuk memasuki ruang sulih suara AI. Mengapa menurut Anda penting untuk mengintegrasikan suara nyata ke dalam produk?

Jawaban kami terhadap hal ini ada dua: pertama, kami ingin menciptakan solusi yang melengkapi kemampuan aktor suara profesional, sehingga memperluas peluang untuk bersuara. Dan kedua, kami berusaha untuk memiliki tingkat kualitas manusia tertinggi dalam produk kami. Pengisi suara kami adalah mitra kolaboratif jangka panjang dan menerima kompensasi serta bagi hasil baik untuk data suara mereka maupun konten selanjutnya yang diproduksi dengannya. Setiap pengisi suara yang kami sewa untuk membuat avatar suara AI berdasarkan kemiripan suaranya dibayar berdasarkan seberapa sering suaranya digunakan di platform kami. Kami mendorong talenta untuk bermitra dengan kami; kompensasi yang adil atas kontribusi mereka sangatlah penting bagi kami.

Untuk menawarkan produk berkualitas manusia tingkat tertinggi di pasar, kita harus teliti dalam menentukan dari mana kita mendapatkan data. Proses ini memberi kami kontrol lebih besar atas kualitas, saat kami melatih kualitas kami belajar mendalam model untuk berbicara tentang kesetaraan manusia dan gaya spesifik yang relevan secara kontekstual. Kami tidak hanya menciptakan suara yang melafalkan masukan yang diberikan. Model kami menawarkan berbagai gaya suara yang sesuai dengan apa yang ada di halaman. Baik pengguna membuat sulih suara dengan menggunakan avatar dari perpustakaan kami atau membuat sulih suara dengan suara yang dibuat khusus untuk merek mereka, kami menggunakan data suara nyata untuk memastikan proses yang lancar dan platform yang mudah digunakan. Jika pelanggan kami harus memanipulasi dan mengedit suara kami pada pascaproduksi, proses untuk mendapatkan hasil yang diinginkan akan menjadi rumit dan lama. Suara kami mengambil konteks konten tertulis dan memberikan pembacaan yang akurat secara kontekstual. Kami menawarkan suara untuk semua jenis kasus penggunaan – baik itu membaca berita, membuat iklan audio, atau dukungan pusat panggilan otomatis – sehingga bermitra dengan pengisi suara profesional yang spesifik untuk setiap kasus penggunaan akan memberi kami konteks dan data suara berkualitas tinggi .

Kami secara rutin memperbarui dan menambahkan gaya dan aksen baru ke perpustakaan avatar kami untuk memastikan bahwa kami mewakili suara pelanggan kami. Di Studio WellSaid Labs, pelanggan dan merek dapat mengaudisi berbagai suara berdasarkan wilayah, gaya, dan kasus penggunaan, sehingga memungkinkan produksi konten audio yang lebih lancar dan terpadu yang disesuaikan dengan kebutuhan pembuatnya. Setelah rekaman awal diambil sampelnya, pengguna dapat memberi isyarat pada kata, ejaan, dan pengucapan tertentu untuk memastikan AI secara konsisten menyampaikan kebutuhan mereka secara spesifik.

WellSaid Labs mempertaruhkan klaimnya sebagai platform suara AI etis pertama. Mengapa etika AI penting bagi Anda?

Ketika adopsi AI meningkat dan menjadi lebih umum, ketakutan akan kasus penggunaan yang berbahaya dan pelaku kejahatan menjadi pusat perhatian – dan sayangnya kekhawatiran ini dibuktikan dengan kejadian di dunia nyata. Tidak terkecuali suara AI; Hampir setiap hari, laporan baru mengenai selebriti, tokoh masyarakat, atau politisi yang dipalsukan untuk tujuan iklan atau politik menjadi berita utama. Meskipun peraturan federal formal mengenai teknologi ini masih terus berkembang, mendeteksi dan memberantas aktor jahat dan penggunaan suara sintetis akan menjadi semakin sulit seiring dengan kemajuan teknologi.

Berasal dari AI2, di mana etika AI adalah prinsip intinya, Michael dan saya melakukan percakapan ini pada hari pertama. Mengembangkan teknologi ucapan AI memiliki tanggung jawab yang signifikan terkait persetujuan, privasi, dan keselamatan secara keseluruhan. Kami tahu bahwa kami, sebagai pengembang, harus membangun teknologi kami dengan aman, mengatasi masalah etika, dan meletakkan dasar bagi pengembangan suara sintetis di masa depan. Kami menyadari potensi penyalahgunaan teknologi ucapan AI dan menjalankan tanggung jawab kami untuk mengurangi potensi penyalahgunaan produk kami. Kita perlu meletakkan fondasi ini sejak hari pertama, daripada berlari cepat dan membuat kesalahan di sepanjang jalan. Hal ini tidak baik bagi pelanggan perusahaan dan pengisi suara kami, yang mengandalkan kami untuk menciptakan produk yang berkualitas tinggi dan dapat dipercaya.

Kami sepenuhnya mendukung seruan untuk pembuatan undang-undang di bidang ini; namun, kami tidak akan menunggu peraturan federal diberlakukan. Kami selalu memprioritaskan dan akan terus memprioritaskan praktik-praktik yang mendukung privasi, keamanan, transparansi, dan akuntabilitas.

Kami secara ketat mematuhi kode etik perusahaan kami, yang didasarkan pada pembangunan dengan inovasi yang bertanggung jawab dalam setiap keputusan yang kami buat. Hal ini demi kepentingan terbaik pelanggan global kami – merek perusahaan.

Bagaimana Anda mengembangkan platform suara AI yang etis?

WellSaid Labs telah berkomitmen terhadap inovasi etis sejak awal. Kami memusatkan kepercayaan dan transparansi melalui penggunaan model data internal, persyaratan persetujuan eksplisit, program moderasi konten, dan komitmen kami terhadap perlindungan merek. Di WellSaid, kami bersandar pada prinsip-prinsip AI yang bertanggung jawab untuk membentuk keputusan dan rancangan kita, dan prinsip-prinsip tersebut mencakup penggunaan suara kita. Kode etik kami mewakili prinsip-prinsip berikut: Akuntabilitas, Transparansi, Privasi dan Keamanan, serta Keadilan.

Akuntabilitas: Kami menerapkan standar ketat untuk konten yang pantas, melarang penggunaan suara kami untuk konten yang berbahaya, penuh kebencian, menipu, atau dimaksudkan untuk memicu kekerasan. Tim Kepercayaan & Keamanan kami menjunjung tinggi standar ini dengan program moderasi konten yang ketat, memblokir dan menghapus pengguna yang mencoba melanggar Ketentuan Layanan kami.

Transparansi: Kami memerlukan persetujuan eksplisit sebelum membuat suara sintetis dengan data suara seseorang. Pengguna tidak dapat mengunggah data suara dari politisi, selebritas, atau siapa pun untuk membuat tiruan suaranya kecuali kami mendapat izin tertulis dan eksplisit dari orang tersebut.

Keamanan dan Privasi: Kami melindungi identitas pengisi suara kami dengan menggunakan gambar stok dan alias untuk mewakili suara sintetis. Kami juga mendorong mereka untuk berhati-hati tentang bagaimana dan dengan siapa mereka berbagi hubungan dengan WellSaid Labs atau perusahaan suara sintetis lainnya untuk mengurangi peluang penyalahgunaan suara mereka.

Keadilan: Kami memberikan kompensasi kepada semua pengisi suara yang menyediakan data suara untuk platform kami, dan kami memberi mereka bagi hasil berkelanjutan atas penggunaan suara sintetis yang kami buat dengan data mereka.

Seiring dengan prinsip-prinsip ini, kami juga sangat menghormati kekayaan intelektual. Kami tidak mengklaim kepemilikan atas konten yang disediakan oleh pengguna atau pengisi suara kami. Kami memprioritaskan integritas, keadilan, dan transparansi dalam segala hal yang kami lakukan, memastikan bahwa teknologi ucapan sintetis kami digunakan secara bertanggung jawab dan etis. Kami secara aktif mencari kemitraan dengan suara-suara dari berbagai latar belakang dan pengalaman untuk memastikan bahwa kami memberikan suara bagi semua orang.

Komitmen kami terhadap inovasi yang bertanggung jawab dan mengembangkan teknologi suara AI dengan mempertimbangkan etika membedakan kami dari perusahaan lain yang berupaya memanfaatkan industri baru yang tidak diatur melalui cara apa pun. Investasi awal kami di bidang etika, keselamatan, dan privasi membangun kepercayaan dan loyalitas di antara para pengisi suara dan pelanggan kami, yang semakin mencari produk dan layanan yang dibuat secara etis dari perusahaan-perusahaan yang terdepan dalam inovasi.

WellSaid Labs telah menciptakan model AI internalnya sendiri yang memungkinkan suara AI-nya mencapai kesetaraan manusia, dan hal ini dicapai dengan menghadirkan ketidaksempurnaan yang dimiliki manusia dalam percakapan. Apa yang menyebabkan ketidaksempurnaan ini membuat AI menjadi lebih baik, dan bagaimana ketidaksempurnaan ini diterapkan?

WellSaid Labs bukan sekadar generator TTS. Ketika teknologi TTS awal tidak mampu mengenali kualitas ucapan manusia seperti nada, nada, dan dialek yang menyampaikan konteks dan emosi di balik kata-kata tersebut, suara WellSaid telah mencapai kesetaraan manusia, menghadirkan ketidaksempurnaan unik manusia pada ucapan yang dihasilkan AI.

Ukuran utama kualitas suara kami adalah kealamian manusia. Keyakinan panduan ini telah membentuk teknologi kami di setiap tahap, mulai dari pustaka skrip yang kami buat hingga instruksi yang kami berikan kepada talenta dan, yang terbaru, cara kami melakukan iterasi pada algoritme inti TTS kami.

Kami melatih vokalisasi manusia yang otentik. Bakat suara kami membacakan naskah mereka secara autentik dan menarik saat mereka merekam untuk kami. Kesempurnaan ucapan, di sisi lain, adalah konsep mekanis yang menghasilkan hasil yang tidak wajar dan tanpa cacat secara robotik. Saat pengisi suara profesional tampil, kecepatan bicara mereka berfluktuasi. Kenyaringan mereka bergerak seiring dengan konten yang mereka baca. Nada suara mereka mungkin naik pada bagian yang membutuhkan bacaan yang bersemangat dan turun lagi pada baris yang lebih suram. Variasi dinamis ini menghasilkan penampilan vokal manusia yang menarik.

Dengan membangun proses AI yang bekerja dalam koordinasi dengan kinerja dinamis dari talenta profesional kami, kami telah membangun platform TTS yang benar-benar alami. Kami mengembangkan sistem TTS bentuk panjang pertama dengan kontrol prediktif di seluruh proses kreatif. Perpustakaan fonetik kami menyimpan beragam koleksi data audio, memungkinkan pengguna untuk memasukkan isyarat vokal tertentu, seperti panduan pengucapan atau kemampuan kontrol, ke dalam model selama fase produksi. Dalam satu platform, pengguna WellSaid dapat merekam, mengedit, dan menyesuaikan gaya sulih suara mereka tanpa perlu mengimpor data eksternal.

Bisakah Anda mendiskusikan beberapa tantangan di balik pembangunan perusahaan AI text-to-speech (TTS)?

Perkembangan teknologi suara AI telah menciptakan serangkaian hambatan baru baik bagi produsen maupun konsumennya. Salah satu tantangan utamanya adalah tidak terjebak dalam kebisingan dan hype yang membanjiri sektor AI. Sebagai teknologi baru yang menarik, banyak organisasi mencoba memanfaatkan pengembangan sulih suara AI jangka pendek. Kami ingin memberikan suara bagi semua orang, dipandu oleh prinsip-prinsip etika dan keaslian yang utama. Kepatuhan terhadap keaslian ini dapat menunda pengembangan dan penerapan teknologi kami, namun memperkuat keselamatan dan keamanan suara WellSaid dan datanya.

Tantangan lain dalam mengembangkan platform TTS kami adalah mengembangkan pedoman izin khusus untuk memastikan bahwa organisasi atau individu tidak akan menyalahgunakan teknologi kami. Untuk mengatasi tantangan ini, kami mencari kemitraan kolaboratif jangka panjang dan terlibat penuh dalam pengembangan sulih suara untuk meningkatkan akuntabilitas, transparansi, dan keamanan pengguna. Kami secara aktif mencari kemitraan dengan pengisi suara dari berbagai latar belakang, organisasi, dan pengalaman untuk memastikan bahwa perpustakaan suara WellSaid Labs mencerminkan pencipta dan audiensnya. Proses-proses ini dirancang dengan sengaja dan berorientasi pada detail untuk memastikan teknologi kami digunakan seaman dan etis mungkin, sehingga dapat memperlambat waktu pengembangan dan peluncuran.

Apa visi Anda untuk masa depan suara AI generatif?

Untuk waktu yang lama, teknologi ucapan AI belum mencapai kualitas yang cukup tinggi untuk memungkinkan perusahaan membuat konten bermakna dalam skala besar. Kini teknologi audio tidak lagi memerlukan peralatan dan perangkat keras yang mahal, semua konten tertulis dapat diproduksi dan dipublikasikan dalam format audio untuk menciptakan pengalaman multi-modal yang menarik.

Saat ini, suara AI dapat menghasilkan audio mirip manusia dan menangkap nuansa yang diperlukan untuk membuat penyampaian cerita digital lebih mudah diakses dan alami. Masa depan suara AI generatif akan menjadi pengalaman audio yang mencakup semua aspek kehidupan kita. Seiring dengan kemajuan teknologi, kita akan melihat suara sintetis yang semakin alami dan ekspresif mengaburkan batas antara ucapan manusia dan ucapan yang dihasilkan mesin – membuka pintu baru bagi bisnis, komunikasi, aksesibilitas, dan cara kita berinteraksi dengan dunia di sekitar kita.

Bisnis akan menemukan peningkatan personalisasi dalam antarmuka suara AI dan menggunakannya untuk membuat interaksi dengan asisten virtual menjadi lebih mendalam dan ramah pengguna. Peningkatan ini sudah terjadi, mulai dari agen pusat panggilan cerdas hingga layanan drive-thru makanan cepat saji. Pembuatan konten, termasuk periklanan, pemasaran produk, narasi berita, podcast, buku audio, dan multimedia lainnya, akan mengalami peningkatan efisiensi dengan menggunakan alat untuk mengembangkan konten yang menarik – yang pada akhirnya meningkatkan peningkatan dan pendapatan bagi organisasi, terutama sekarang karena model multibahasa dapat memperluas jangkauan perusahaan dari satu titik asal hingga memiliki kehadiran global. Tim produksi akan mendapatkan manfaat besar dalam suara sintetis untuk menciptakan suara yang disesuaikan dengan kebutuhan merek atau disesuaikan dengan pendengar.

Sebelum diperkenalkannya AI, teknologi TTS tidak memiliki emosi, intonasi, dan kemampuan pengucapan yang diperlukan untuk menceritakan kisah lengkap dalam skala besar dan mudah. Kini, TTS yang didukung AI menawarkan pengalaman yang lebih mendalam dan mudah diakses, termasuk kemampuan berbicara secara real-time dan agen percakapan interaktif.

Mencapai kemampuan berbicara seperti manusia merupakan sebuah perjalanan, namun kini setelah hal tersebut dapat dicapai, kita menyaksikan cakupan penuh dari suara AI untuk menciptakan nilai bisnis nyata bagi organisasi.

Terima kasih atas wawancaranya yang luar biasa, pembaca yang ingin belajar lebih banyak harus berkunjung Lab Kata Baik.

Mitra pendiri unite.AI & anggota Dewan Teknologi Forbes, anto adalah seorang futuris yang bersemangat tentang masa depan AI & robotika.

Dia juga Pendiri Sekuritas.io, situs web yang berfokus pada investasi dalam teknologi disruptif.