Wawancara

Ofir Krakowski, CEO dan Co-Founder Deepdub – Seri Wawancara

Published March 13, 2025

Updated April 26, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Ofir Krakowski adalah co-founder dan CEO Deepdub. Dengan 30 tahun pengalaman di bidang ilmu komputer dan pembelajaran mesin, ia memainkan peran kunci dalam mendirikan dan memimpin departemen pembelajaran mesin dan inovasi Angkatan Udara Israel selama 25 tahun.

Deepdub adalah perusahaan dubbing yang didorong oleh AI yang menggunakan pembelajaran dalam untuk menyediakan lokalisisasi berkualitas tinggi dan dapat diskalakan untuk film, TV, dan konten digital. Didirikan pada 2019, ia memungkinkan pembuat konten untuk melestarikan kinerja asli sambil menerjemahkan dialog ke dalam beberapa bahasa secara mulus. Dengan mengintegrasikan sintesis ucapan berdaya AI dengan pengawasan linguistik manusia, Deepdub meningkatkan aksesibilitas konten global, mengurangi waktu dan biaya dubbing tradisional. Perusahaan ini telah mendapatkan pengakuan industri untuk inovasinya, memperoleh kemitraan besar, sertifikasi, dan pendanaan untuk memperluas teknologi lokalisisasi AI di sektor hiburan.

Apa yang menginspirasi Anda untuk mendirikan Deepdub pada 2019? Apakah ada momen atau tantangan tertentu yang menyebabkan pendiriannya?

Dubbing tradisional telah lama menjadi standar industri untuk lokalisisasi konten, tetapi itu adalah proses yang mahal, memakan waktu, dan intensif sumber daya. Sementara solusi suara yang dihasilkan AI ada, mereka kekurangan kedalaman emosi yang dibutuhkan untuk benar-benar menangkap kinerja aktor, membuatnya tidak cocok untuk konten kompleks berkualitas tinggi.

Kami mengidentifikasi peluang untuk menjembatani kesenjangan ini dengan mengembangkan solusi lokalisisasi yang didorong AI yang mempertahankan autentisitas emosi kinerja asli sambil secara drastis meningkatkan efisiensi. Kami mengembangkan teknologi eTTS™ (Emotion-Text-to-Speech) proprietary kami, yang memastikan bahwa suara yang dihasilkan AI membawa bobot emosi, nada, dan nuansa yang sama dengan aktor manusia.

Kami membayangkan dunia di mana hambatan bahasa dan budaya tidak lagi menjadi penghalang aksesibilitas konten global. Dalam menciptakan platform kami, kami mengakui tantangan keterbatasan bahasa dalam hiburan, e-learning, FAST, dan industri lainnya, dan berusaha untuk merevolusi lokalisisasi konten.

Untuk memastikan bahwa solusi Deepdub menyediakan lokalisisasi dan dubbing berkualitas tinggi untuk konten kompleks secara besar-besaran, kami memutuskan untuk mengambil pendekatan hibrida dan mengintegrasikan ahli linguistik dan suara ke dalam proses, bersama dengan teknologi eTTS™ kami.

Visi kami adalah mendemokratisasikan produksi suara, membuatnya sangat dapat diskalakan, universal, dapat diakses, inklusif, dan relevan budaya.

Apa saja tantangan teknis dan bisnis terbesar yang Anda hadapi saat meluncurkan Deepdub, dan bagaimana Anda mengatasi mereka?

Menghasilkan kepercayaan industri hiburan adalah hambatan besar saat meluncurkan Deepdub. Hollywood telah mengandalkan dubbing tradisional selama dekade, dan beralih ke solusi yang didorong AI memerlukan demonstrasi kemampuan kami untuk menghasilkan hasil studio-kualitas dalam industri yang sering skeptis terhadap AI.

Untuk mengatasi skeptisisme ini, kami pertama-tama meningkatkan autentisitas suara AI yang dihasilkan dengan menciptakan bank suara yang sepenuhnya dilisensikan. Bank ini menggabungkan sampel suara manusia asli, secara signifikan meningkatkan naturalness dan ekspresivitas output kami, yang sangat penting untuk penerimaan di Hollywood.

Selanjutnya, kami mengembangkan teknologi proprietary, seperti eTTS™, bersama dengan fitur seperti Accent Control. Teknologi ini memastikan bahwa suara AI yang dihasilkan tidak hanya menangkap kedalaman emosi dan nuansa tetapi juga mematuhi autentisitas regional yang diperlukan untuk dubbing berkualitas tinggi.

Kami juga membangun tim post-produksi internal yang didedikasikan yang bekerja sama dengan teknologi kami. Tim ini memoles output AI, memastikan setiap potongan konten memiliki kualitas yang halus dan memenuhi standar industri yang tinggi.

Selain itu, kami memperluas pendekatan kami untuk mencakup jaringan global ahli manusia—aktor suara, ahli bahasa, dan sutradara dari seluruh dunia. Profesional ini membawa wawasan budaya dan keahlian kreatif yang tak ternilai, meningkatkan akurasi budaya dan resonansi emosi dari konten dubbing kami.

Tim linguistik kami bekerja bersama dengan teknologi dan ahli global kami untuk memastikan bahwa bahasa yang digunakan sempurna untuk konteks budaya audiens target, lebih lanjut memastikan autentisitas dan kepatuhan terhadap norma-norma lokal.

Melalui strategi ini, menggabungkan teknologi canggih dengan tim ahli global yang kuat dan tim post-produksi internal, Deepdub telah berhasil menunjukkan kepada Hollywood dan perusahaan produksi top-tier di seluruh dunia bahwa AI dapat secara signifikan meningkatkan alur kerja dubbing tradisional. Integrasi ini tidak hanya mempermudah produksi tetapi juga memperluas kemungkinan ekspansi pasar.

Bagaimana teknologi dubbing yang didorong AI oleh Deepdub berbeda dari metode dubbing tradisional?

Dubbing tradisional adalah proses yang intensif tenaga kerja dan dapat memakan waktu beberapa bulan per proyek, karena memerlukan aktor suara, insinyur suara, dan tim post-produksi untuk secara manual merekam ulang dialog dalam bahasa yang berbeda. Solusi kami merevolusi proses ini dengan menawarkan solusi hibrida ujung-ke-ujung – menggabungkan teknologi dan keahlian manusia – yang terintegrasi langsung ke dalam alur kerja post-produksi, sehingga mengurangi biaya lokalisisasi hingga 70% dan waktu pengiriman hingga 50%.

Tidak seperti solusi suara yang dihasilkan AI lainnya, teknologi eTTS™ proprietary kami memungkinkan tingkat kedalaman emosi, autentisitas budaya, dan konsistensi suara yang metode tradisional sulit capai dalam skala besar.

Bisakah Anda menjelaskan pendekatan hibrida yang digunakan Deepdub—bagaimana AI dan keahlian manusia bekerja sama dalam proses dubbing?

Model hibrida Deepdub menggabungkan presisi dan skalabilitas AI dengan kreativitas dan sensitivitas budaya keahlian manusia. Pendekatan kami menggabungkan seni tradisional dubbing dengan teknologi AI canggih, memastikan bahwa konten lokalisisasi mempertahankan autentisitas emosi dan dampak aslinya.

Solusi kami menggunakan AI untuk mengotomatisasi aspek dasar lokalisisasi, sementara profesional manusia memoles nuansa emosi, aksen, dan detail budaya. Kami menggabungkan teknologi eTTS™ dan Voice-to-Voice (V2V) kami untuk meningkatkan ekspresivitas alami suara AI yang dihasilkan, memastikan bahwa mereka menangkap kedalaman dan realisme kinerja manusia. Dengan cara ini, kami memastikan bahwa setiap potongan konten terasa asli dan berdampak dalam bentuk lokalisisasinya sebagai aslinya.

Ahli bahasa dan profesional suara memainkan peran kunci dalam proses ini, karena mereka meningkatkan akurasi budaya konten AI yang dihasilkan. Ketika globalisasi terus membentuk masa depan hiburan, integrasi AI dengan seni manusia akan menjadi standar emas untuk lokalisisasi konten.

Selain itu, Program Royalti Seniman Suara kami mengkompensasi aktor suara profesional setiap kali suara mereka digunakan dalam dubbing yang dibantu AI, memastikan penggunaan etis teknologi suara AI.

Bagaimana teknologi eTTS™ (Emotion-Text-to-Speech) proprietary Deepdub meningkatkan autentisitas suara dan kedalaman emosi dalam konten dubbing?

Suara AI yang dihasilkan tradisional sering kekurangan sinyal emosi halus yang membuat kinerja menarik. Untuk mengatasi kekurangan ini, Deepdub mengembangkan teknologi eTTS™ proprietary kami, yang menggunakan AI dan model pembelajaran dalam untuk menghasilkan ucapan yang tidak hanya mempertahankan kedalaman emosi penuh kinerja aktor asli tetapi juga mengintegrasikan kecerdasan emosi manusia ke dalam proses otomatis. Kemampuan canggih ini memungkinkan AI untuk menyesuaikan suara sintetis untuk mencerminkan emosi yang dimaksud seperti sukacita, kemarahan, atau kesedihan, beresonansi secara autentik dengan audiens. Selain itu, eTTS™ unggul dalam menghasilkan replikasi suara berkualitas tinggi, meniru nuansa alami dalam ucapan manusia seperti pitch, nada, dan kecepatan, yang penting untuk menghasilkan baris yang asli dan menarik. Teknologi ini juga meningkatkan sensitivitas budaya dengan terampil menyesuaikan output untuk mengontrol aksen, memastikan bahwa konten dubbing menghormati dan selaras dengan nuansa budaya, sehingga meningkatkan daya tarik global dan efektivitasnya.

Salah satu kritik umum terhadap suara yang dihasilkan AI adalah bahwa mereka dapat terdengar seperti robot. Bagaimana Deepdub memastikan bahwa suara AI yang dihasilkan mempertahankan naturalness dan nuansa emosi?

Teknologi proprietary kami menggunakan algoritma pembelajaran dalam dan mesin untuk menghasilkan solusi dubbing yang dapat diskalakan dan berkualitas tinggi yang melestarikan niat, gaya, humor, dan nuansa budaya asli.

Bersama dengan teknologi eTTS™ kami, suite inovatif Deepdub termasuk fitur seperti Voice-to-Voice (V2V), Voice Cloning, Accent Control, dan Vocal Emotion Bank kami, yang memungkinkan tim produksi untuk memoles kinerja sesuai dengan visi kreatif mereka. Fitur-fitur ini memastikan bahwa setiap suara membawa kedalaman emosi dan nuansa yang diperlukan untuk cerita yang menarik dan pengalaman pengguna yang berdampak.

Selama beberapa tahun terakhir, kami telah melihat keberhasilan solusi kami di industri Media & Hiburan, jadi kami baru-baru ini memutuskan untuk membuka akses ke voiceover Hollywood-vetted kami kepada pengembang, perusahaan, dan pembuat konten dengan AI Audio API kami. Didukung oleh teknologi eTTS™ kami, API ini memungkinkan generasi suara waktu nyata dengan parameter kustomisasi lanjutan, termasuk aksen, nada emosi, tempo, dan gaya vokal.

Fitur unggulan API kami adalah preset audio, yang dirancang berdasarkan pengalaman industri selama bertahun-tahun dengan kebutuhan voiceover yang paling diminta. Pengaturan pra-konfigurasi ini memungkinkan pengguna untuk dengan cepat menyesuaikan jenis konten yang berbeda tanpa memerlukan konfigurasi manual atau eksplorasi yang luas. Preset yang tersedia termasuk deskripsi audio dan buku audio, narasi dokumenter atau kenyataan, drama dan hiburan, pengiriman berita, komentari olahraga, voiceover anime atau kartun, Interactive Voice Response (IVR), serta konten promosi dan komersial.

Dubbing AI melibatkan adaptasi budaya dan linguistik—bagaimana Deepdub memastikan bahwa solusi dubbingnya secara budaya tepat dan akurat?

Lokalisisasi bukan hanya tentang menerjemahkan kata-kata – itu tentang menerjemahkan makna, niat, dan konteks budaya. Pendekatan hibrida Deepdub menggabungkan otomatisasi yang didorong AI dengan keahlian linguistik manusia, memastikan bahwa dialog yang diterjemahkan mencerminkan nuansa budaya dan emosi audiens target. Jaringan ahli lokalisisasi kami bekerja bersama dengan AI untuk memastikan bahwa konten dubbing selaras dengan dialek regional, ekspresi, dan sensitivitas budaya.

Apa saja inovasi paling menarik yang saat ini Anda kerjakan untuk mendorong dubbing AI ke tingkat berikutnya?

Salah satu inovasi terbesar kami yang akan datang adalah Live/Streaming Dubbing, yang akan memungkinkan dubbing waktu nyata untuk siaran langsung seperti acara olahraga dan media berita, membuat acara global langsung dapat diakses. Dengan menggabungkan ini dengan inovasi lain kami, fitur eTTs™ kami, teknologi proprietary yang memungkinkan penciptaan suara yang terdengar seperti manusia dari teks dalam skala besar dan dengan dukungan emosi penuh dan hak komersial yang terintegrasi, kami akan dapat menawarkan dubbing langsung berkualitas tinggi, autentik, dan emosional yang tidak ada bandingannya di pasar.

Ambil contoh upacara pembukaan Olimpiade atau acara olahraga langsung lainnya, misalnya. Sementara penyiar lokal biasanya menyediakan komentari dalam bahasa dan dialek regional mereka, teknologi ini akan memungkinkan pemirsa dari seluruh dunia untuk mengalami acara penuh dalam bahasa asli mereka saat terjadi.

Dubbing langsung akan mendefinisikan kembali bagaimana acara langsung dialami di seluruh dunia, memastikan bahwa bahasa tidak pernah menjadi hambatan.

Dubbing AI yang dihasilkan telah menghadapi kritik dalam beberapa proyek baru-baru ini. Apa yang Anda pikir adalah faktor-faktor kunci yang mendorong kritik-kritik ini?

Kritik utama berasal dari kekhawatiran tentang autentisitas, etika, dan kualitas. Beberapa suara AI yang dihasilkan telah kekurangan resonansi emosi dan nuansa yang dibutuhkan untuk cerita yang imersif. Di Deepdub, kami telah menangani ini dengan mengembangkan suara AI yang ekspresif secara emosi, memastikan bahwa mereka mempertahankan jiwa kinerja aslinya. Deepdub telah mencapai kepuasan pemirsa lebih dari 70% di semua dimensi, termasuk casting yang luar biasa, dialog yang jelas, sinkronisasi yang mulus, dan pacing yang sempurna.

Masalah lainnya adalah penggunaan etis suara AI. Deepdub adalah pemimpin dalam dubbing AI yang bertanggung jawab, mempelopori Program Royalti industri pertama yang mengkompensasi aktor suara untuk kinerja AI yang dihasilkan. Kami percaya bahwa AI harus meningkatkan kreativitas manusia, bukan menggantikannya, dan komitmen ini tercermin dalam semua yang kami bangun.

Bagaimana Anda melihat dubbing AI mengubah industri hiburan global dalam 5-10 tahun ke depan?

Dalam dekade berikutnya, dubbing yang didorong AI akan mendemokratisasikan konten seperti tidak pernah sebelumnya, membuat film, acara TV, dan siaran langsung dapat diakses oleh setiap audiens, di mana saja, dalam bahasa asli mereka secara instan.

Kami membayangkan dunia di mana platform streaming dan penyiar mengintegrasikan dubbing multibahasa waktu nyata, menghilangkan hambatan bahasa dan memungkinkan cerita untuk bepergian lebih jauh dan lebih cepat daripada metode lokalisisasi tradisional yang diizinkan.

Selain aksesibilitas bahasa, dubbing AI juga dapat meningkatkan akses media bagi orang buta dan tuna netra. Banyak dari mereka mengandalkan deskripsi audio untuk mengikuti konten visual, dan dubbing AI memungkinkan mereka untuk terlibat dengan konten bahasa asing ketika subtitle tidak tersedia. Dengan menghancurkan hambatan bahasa dan sensorik, dubbing AI yang didorong akan membantu menciptakan pengalaman hiburan yang lebih inklusif untuk semua, yang sangat penting karena peraturan baru tentang aksesibilitas media mulai berlaku di seluruh dunia.

Apa saja tantangan terbesar yang masih perlu diatasi agar dubbing AI menjadi benar-benar mainstream?

Tantangan terbesar adalah mempertahankan kualitas ultra-tinggi dalam skala besar, memastikan presisi linguistik dan budaya, dan menetapkan pedoman etika untuk suara AI yang dihasilkan. Namun, di luar hambatan teknis, penerimaan publik dubbing AI tergantung pada kepercayaan. Pemirsa perlu merasa bahwa suara AI yang dihasilkan mempertahankan autentisitas dan kedalaman emosi kinerja daripada terdengar sintetis atau terlepas.

Agar dubbing AI dapat sepenuhnya diterima, itu harus memiliki kualitas tinggi dengan menggabungkan seni manusia dan teknologi dalam skala besar dan juga menunjukkan rasa hormat terhadap integritas kreatif, nuansa linguistik, dan konteks budaya. Ini berarti memastikan bahwa suara tetap setia pada niat aktor asli, menghindari ketidakakuratan yang dapat mengasingkan audiens, dan mengatasi kekhawatiran etika seputar risiko deepfake dan kepemilikan suara.

Ketika dubbing AI menjadi lebih umum, penyedia teknologi harus menerapkan standar yang ketat untuk autentisitas suara, keamanan, dan perlindungan properti intelektual. Deepdub secara aktif memimpin upaya ini, memastikan bahwa teknologi suara AI meningkatkan cerita global sambil menghormati kontribusi artistik dan profesional bakat manusia. Hanya dengan itu audiens, pembuat konten, dan pemangku kepentingan industri akan sepenuhnya menerima dubbing AI sebagai alat yang tepercaya dan berharga.

Terima kasih atas wawancara yang luar biasa, pembaca yang ingin mempelajari lebih lanjut harus mengunjungi Deepdub.

Unite.AI

Ofir Krakowski, CEO dan Co-Founder Deepdub – Seri Wawancara

You may like