Wawancara
Victor Erukhimov, CEO CraftStory – Seri Wawancara

Victor Erukhimov, CEO CraftStory, adalah insinyur R&D penglihatan komputer yang berubah menjadi wirausaha yang membantu membentuk evolusi awal OpenCV, kemudian menjadi co-pendiri Itseez dan memimpinnya dari startup teknis menjadi salah satu tim penelitian penglihatan komputer terkemuka di dunia sebelum diakuisisi oleh Intel. Selama lebih dari satu dekade, ia berkembang dari CTO ke CEO hingga Presiden, dan melanjutkan trajektori itu di Itseez3D, di mana ia memimpin pengembangan teknologi pemindaian 3D seluler dan generasi avatar yang canggih sambil juga menjabat sebagai anggota dewan OpenCV.org selama bertahun-tahun.
Di CraftStory, ia sekarang fokus pada pembuatan video AI-native, membangun teknologi yang mengubah input sederhana menjadi video yang sangat realistis dan siap untuk pembuat konten. Di bawah kepemimpinannya, perusahaan ini mengembangkan model video generatif generasi berikutnya yang dirancang untuk tim pemasaran, pendidik, dan pengisah produk yang memerlukan konten berkualitas tinggi tanpa biaya produksi studio.
Anda telah menjadi kekuatan pendorong di balik beberapa proyek penglihatan komputer paling berpengaruh – dari OpenCV hingga Itseez3D. Apa yang menginspirasi Anda untuk mendirikan CraftStory, dan bagaimana pekerjaan Anda sebelumnya membentuk visi untuk video AI berkualitas studio yang panjang?
Sebelum CraftStory, tim saya dan saya bekerja pada Avatar SDK – sebuah alat yang membuat avatar realistis dari selfie untuk VR/AR, gaming, pemasaran, dan aplikasi lainnya. Kami sudah berpikir mendalam tentang manusia digital selama beberapa tahun. Kemudian, sekitar dua tahun yang lalu, kami menyadari bahwa teknologi GenAI untuk generasi video cukup baik untuk membuka gelombang aplikasi baru, dan kami langsung melompat ke dalamnya.
CraftStory diluncurkan dengan para pembuat OpenCV di intinya. Bagaimana latar belakang bersama itu mempengaruhi arah teknis dan prioritas penelitian untuk Model 2.0?
Kami hidup di periode kemajuan luar biasa dalam penglihatan komputer dan pembelajaran mesin. Rasanya seperti semua kemajuan awal mekanika kuantum – yang awalnya tersebar di beberapa dekade – telah dikompresi menjadi hanya beberapa tahun. Pemahaman gambar dan generasi telah berkembang jauh melampaui apa yang kami kerjakan saat mengembangkan OpenCV. Dengan mengamati evolusi ini selama lebih dari satu dekade, membuat prediksi dan melihatnya berhasil atau gagal, kami telah memperoleh intuisi yang mendalam tentang ke mana teknologi dan pasar menuju. Perspektif itu langsung membentuk prioritas penelitian dan roadmap kami untuk Model 2.0.
Model 2.0 menangani sesuatu yang banyak model video kesulitan: mempertahankan identitas, emosi, dan konsistensi di seluruh menit footage. Apa kemajuan yang membuat ini memungkinkan?
Identitas dan konsistensi telah menjadi prioritas kami sejak hari pertama. Beberapa pilihan arsitektur dalam jaringan secara khusus dirancang untuk menangani tantangan ini. Tapi sama pentingnya adalah fine-tuning model pada data yang kami kumpulkan sendiri. Kami merekam aktor profesional di lingkungan studio yang dikendalikan menggunakan kamera dengan kecepatan bingkai tinggi kami sendiri untuk memastikan bahwa setiap bingkai – termasuk gerakan cepat tubuh, tangan, dan jari – tetap tajam. Tingkat data berkualitas tinggi, kaya gerak itu membuat perbedaan yang signifikan.
Tim Anda memperkenalkan pipa difusi paralel untuk menjaga urutan panjang tetap kohesif. Apa masalah yang dirancang untuk diselesaikan, dan mengapa itu penting untuk video manusia multi-menit?
Menjalankan proses difusi tunggal di atas urutan panjang bingkai sangat menantang – itu sangat mahal secara komputasi dan menuntut sejumlah besar data pelatihan. Pipa difusi paralel kami memecahkan ini dengan menjalankan beberapa proses difusi pada segmen waktu yang berbeda secara bersamaan. Kemajuan kunci adalah menemukan cara menghubungkan segmen-segmen ini sehingga mereka tetap kohesif dan konsisten selama durasi yang lama. Model 2.0 sekarang dapat menghasilkan video hingga lima menit, tapi itu sebagian besar merupakan kendala teknis. Dengan lebih banyak pekerjaan teknik, kami dapat memperpanjang ini ke video dengan panjang yang secara efektif arbitrer.
CraftStory menekankan realisme dalam gerakan dan ekspresi. Apa tantangan terberat dalam melestarikan dinamika tangan, tubuh, dan wajah alami pada durasi yang lebih lama?
Tantangan terbesar adalah menghasilkan gerakan tubuh dan wajah yang realistis konsisten di seluruh durasi yang lama. Detail kecil – seperti gerakan tangan halus, perubahan postur, atau mikro-ekspresi – cenderung rusak dalam sebagian besar model saat urutan menjadi lebih lama. Kami memecahkan ini dengan melatih pada dataset kami sendiri yang luas dan berkualitas tinggi, yang direkam dengan aktor profesional dan kamera dengan kecepatan bingkai tinggi. Tingkat footage kaya gerak yang dikendalikan itu memberi model sinyal yang dibutuhkan untuk melestarikan dinamika alami di seluruh penampilan, bukan hanya dalam momen terisolasi.
Banyak perusahaan terjebak antara syuting langsung yang mahal dan klip AI yang singkat dan tidak dapat diandalkan. Di mana Anda melihat permintaan komersial terbesar muncul untuk video manusia multi-menit?
Video AI yang dihasilkan dengan cepat menjadi tidak dapat dibedakan dari footage yang diambil dengan kamera, sementara biayanya hanya sebagian kecil dari produksi tradisional. Permintaan terbesar yang kami lihat adalah konten perusahaan – terutama Pembelajaran & Pengembangan – di mana perusahaan memerlukan volume besar video instruksional yang jelas dan berorientasi manusia yang dapat diperbarui secara instan. Presenter AI multi-menit yang konsisten adalah pas yang ideal untuk itu.
Kami juga melihat minat yang tumbuh dalam kasus penggunaan pemasaran seperti pengenalan produk, tutorial, dan penjelasan. Saat teknologi matang, video AI panjang akan semakin menggantikan syuting langsung yang mahal dan klip pendek yang tidak dapat diandalkan yang sebagian besar alat dapat produksi hari ini.
Anda telah membangun sistem penyelarasan gerakan dan sinkronisasi bibir yang canggih. Seberapa jauh kita dari dialog AI yang sepenuhnya dapat dipercaya, dan apa yang masih perlu diperbaiki?
Saya pikir kita sangat dekat. Satu iterasi teknologi lagi – terutama untuk membuatnya lebih cepat dan menghasilkan 1080p asli – akan membawa kita ke dialog AI yang sepenuhnya dapat dipercaya.
Model teks-ke-video yang Anda kembangkan berjanji untuk menghasilkan video panjang langsung dari skrip. Apa penghalang teknis yang masih Anda kerjakan untuk diatasi sebelum itu menjadi mainstream?
Tidak ada penghalang mendasar – hanya banyak pekerjaan teknik yang harus dilakukan. Video-ke-video adalah buah yang lebih rendah, jadi kami membawanya ke pasar terlebih dahulu. Sekarang kami fokus pada model gambar-ke-video yang mengambil skrip dan gambar referensi sebagai input. Kami membuat kemajuan yang cepat dan berharap dapat merilisnya dalam beberapa minggu ke depan.
Urutan kamera bergerak – seperti tembakan berjalan dan berbicara – adalah langkah besar menuju otomatisasi sinematik. Bagaimana tim Anda mendekati tantangan ini dibandingkan dengan pesaing seperti Sora?
Kami fokus pada menghasilkan panjang urutan berjalan dan berbicara – tembakan multi-menit yang terasa sinematik dan alami. Tujuan kami adalah memberi pelanggan kemampuan untuk membuat video dengan gaya kampanye “Keep Walking” yang terkenal oleh Johnnie Walker, tetapi tanpa kru produksi penuh. Kami membuat kemajuan yang cepat, dan sangat segera kami akan dapat memproduksi urutan berjalan dan berbicara yang berlangsung selama beberapa menit dengan karakter, gerakan, dan dinamika kamera yang konsisten.
Dengan OpenAI, Google, dan lain-lain yang berlomba ke video panjang, apa yang Anda lihat sebagai keunggulan CraftStory di pasar yang muncul ini?
Pasar video AI sangat kompetitif, dan kami sepenuhnya mengharapkan pemain besar untuk mengejar ketinggalan secara teknis. Tapi keunggulan kami adalah fokus dan kecepatan. Kami memiliki roadmap yang sangat ambisius, dan kami adalah tim yang ramping yang dapat bergerak cepat dan beriterasi dengan cepat. Kelincahan itu – dan fokus kami pada video manusia panjang – adalah yang membedakan CraftStory.
Saat video manusia yang dihasilkan AI menjadi lebih realistis dan dapat diskalakan, apa yang Anda anggap sebagai pengaman etis atau kreatif yang harus ada saat teknologi ini menyebar?
Setiap teknologi yang kuat adalah pedang bermata dua, dan sangat penting untuk memahami risiko spesifik yang datang dengan membawanya ke pasar. Dalam video manusia yang dihasilkan AI, impersonasi adalah kekhawatiran paling signifikan – meskipun bukan satu-satunya. Kami telah menghabiskan waktu menganalisis risiko-risiko ini dan telah mengimplementasikan pengaman yang mencegah kasus penggunaan berbahaya tertentu. Saat teknologi ini menjadi lebih realistis dan dapat diskalakan, mempertahankan perlindungan etis dan kreatif yang kuat akan sangat penting bagi seluruh industri.
Terima kasih atas wawancara yang luar biasa, pembaca yang ingin mempelajari lebih lanjut dapat mengunjungi CraftStory.












