Röportajlar
CraftStory CEO’sü Victor Erukhimov ile Röportaj Serisi

Victor Erukhimov, CraftStory CEO’su, bir bilgisayar görme AR-GE mühendisi olarak başladı ve OpenCV’nin erken evrimine katkıda bulundu, daha sonra Itseez’i kurdu ve Intel tarafından satın alınmadan önce dünyanın önde gelen bilgisayar görme araştırma ekiplerinden birine dönüştürdü. On yılı aşkın bir süre boyunca, CTO’dan CEO’ya ve ardından Itseez3D’de advanced mobil 3D tarama ve avatar oluşturma teknolojilerinin geliştirilmesine liderlik etti ve aynı zamanda uzun süre OpenCV.org’un yönetim kurulu üyesi olarak görev yaptı.
CraftStory’de şimdi AI yerli video oluşturma teknolojisi geliştiriyor ve basit girdileri çok gerçekçi ve yaratıcı hazır videolara dönüştürüyor. Onun liderliğinde, şirket pazarlama ekipleri, eğitimciler ve ürün hikayecileri için hızlı ve yüksek kaliteli içerik oluşturmak amacıyla tasarlanan next-generation generatif video modelleri geliştiriyor.
OpenCV’den Itseez3D’ye kadar, en etkili bilgisayar görme projelerinin arkasındaki itici güçtunuz. CraftStory’yi kurmaya ne sizi teşvik etti ve geçmiş çalışmalarınız uzun form, stüdyo kalitesinde AI video vizyonunuzu nasıl şekillendirdi?
CraftStory’den önce, ekibimle birlikte Avatar SDK üzerinde çalışıyorduk – VR/AR, oyun, pazarlama ve diğer uygulamalar için selfie’lerden gerçekçi avatarlar oluşturan bir araç. Zaten birkaç yıldır dijital insanlarla ilgili derinlemesine düşünüyorduk. Sonra, yaklaşık iki yıl önce, video oluşturma için GenAI teknolojisinin tamamen yeni bir dalganın kilidini açacak kadar iyi hale geldiğini fark ettik ve hemen işe koyulduk.
CraftStory, OpenCV’nin yaratıcıları ile kuruldu. Bu ortak geçmiş, Model 2.0 için teknik yön ve araştırma önceliklerini nasıl etkiledi?
Bilgisayar görme ve makine öğrenimi alanında olağanüstü bir ilerleme döneminde yaşıyoruz. İlk kuantum mekaniğinin tüm atılımlarının on yıllar boyunca yayıldığı gibi, tüm bu atılımlar sadece birkaç yıla sıkıştırılmış gibi geliyor. Görüntü anlama ve oluşturma, OpenCV’yi geliştirirken çalıştığımızdan çok daha öteye gitti. Bu evrimi on yılı aşkın bir süredir gözlemleyerek, tahminlerde bulunarak ve bunların başarılı veya başarısız olmasına tanık olarak, teknoloji ve pazarın nereye gittiğine dair derin bir sezgi kazandık. Bu bakış açısı, araştırma önceliklerimizi ve Model 2.0 için yol haritamızı doğrudan şekillendirdi.
Model 2.0, birçok video modelinin mücadele ettiği bir şeyi ele alıyor: dakikalarca süren görüntülerde kimlik, duygu ve tutarlılığı koruma. Bu mümkün olmasını sağlayan atılımlar nelerdi?
Kimlik ve tutarlılık, başından beri önceliklerimizdi. Ağdaki beberapa mimari seçim, bu zorlukları ele almak için özel olarak tasarlandı. Ancak aynı derecede önemli olan, kendi topladığımız verilerle modeli ince ayarlamaktı. Profesyonel aktörleri, yüksek kare hızı kameralarla kontrol edilen bir stüdyo ortamında filme aldık, böylece her kare – hızlı vücut, el ve parmak hareketleri dahil – keskin kaldı. Bu düzeyde yüksek kaliteli, hareket açısından zengin veri önemli bir fark yarattı.
Ekibiniz, uzun dizileri tutarlı tutmak için paralel difüzyon pipeline’i tanıttı. Bu, hangi sorunu çözmek için tasarlandı ve neden çok dakika insan videosu için bu kadar önemliydi?
Tek bir difüzyon sürecini uzun bir kare dizisi boyunca çalıştırmak son derece zor – hesaplamalı olarak pahalı ve大量 bir eğitim verisi gerektirir. Paralel difüzyon pipeline’miz, bu sorunu, farklı zaman segmentlerinde birden fazla difüzyon sürecini aynı anda çalıştırarak çözer. Ana atılım, bu segmentleri birbirine bağlayıp uzun süreler boyunca tutarlı ve tutarlı kalmasını sağlamaktı. Model 2.0, şimdi beş dakikaya kadar videolar üretebilir, ancak bu esasen bir teknik kısıtlama. Daha fazla mühendislik çalışmasıyla, videoların neredeyse任意 bir uzunluğuna uzatabiliriz.
CraftStory, hareket ve ifade realismine vurgu yapıyor. Uzun süreli doğal el, vücut ve yüz dinamikleri korunmasında en zorlu zorluklar nelerdi?
En büyük zorluk, uzun süreler boyunca gerçekçi vücut ve yüz hareketini tutarlı bir şekilde üretmektir. Küçük ayrıntılar – ince el hareketi, değişen duruş veya mikro ifadeler – çoğu modelde dizinin uzamasıyla birlikte bozulmaya eğilimlidir. Bunu, kendi yüksek kaliteli, hareket açısından zengin verisetimiz üzerinde eğitim vererek çözdük. Profesyonel aktörlerle ve yüksek kare hızı kameralarla elde edilen bu düzeyde kontrol edilen, hareket açısından zengin görüntü, modelin tüm performans boyunca, sadece izole anlarda değil, doğal dinamikleri korumasına必要 olan sinyali verdi.
Çok fazla şirket, pahalı canlı çekimlerin ve kısa, güvensiz AI kliplerin arasında kalıyor. Çok dakika insan merkezli video için en büyük ticari talebin nerede ortaya çıkacağını görüyorsunuz?
AI tarafından oluşturulan videolar, kamerayla çekilen görüntülerden ayırt edilemez hale gelirken, geleneksel üretim maliyetinin sadece bir kısmını karşılıyor. En büyük erken talebi, özellikle Öğrenme ve Geliştirme – şirketlerin hızlı ve yüksek kaliteli, insan merkezli talimat videolarına ihtiyaç duyduğu – kurumsal içerikte görüyoruz. Çok dakika tutarlı AI sunucuları, bu için ideal bir uyum içinde.
Ürün tanıtımı, öğreticiler ve açıklamalar gibi pazarlama kullanım örneklerinde de artan bir ilgi görüyoruz. Teknoloji olgunlaştıkça, uzun form AI videosu, pahalı canlı çekimlerin ve günümüzde çoğu aracın üretebileceği kısa, güvensiz kliplerin yerini alacak.
Gelişmiş bir dudak senkronizasyonu ve jest hizalama sistemi geliştirdiniz. Tamamen inandırıcı AI diyaloguna ne kadar yakınız ve ne gibi geliştirmeler gerekiyor?
Sanırım çok yakınız. Teknolojide bir sonraki iterasyon – özellikle daha hızlı ve yerli 1080p üretimi için – tamamen inandırıcı AI diyaloguna ulaşmamızı sağlayacak.
Metin-videoya dayalı bir model geliştiriyorsunuz ve bu, uzun form üretimini doğrudan senaryolardan vaat ediyor. Bu teknolojinin ana akıma ulaşmadan önce aşmanız gereken teknik engeller nelerdir?
Temelde hiçbir engel yok – sadece önümüzde çok mühendislik çalışması var. Video-videodan daha kolay olanı piyasaya sürdük. Şimdi, bir senaryo ve referans görüntüsünden başlayan görüntü-videoya dayalı model üzerinde çalışıyoruz. Hızlı ilerleme kaydediyoruz ve birkaç hafta içinde bunu yayınlamayı umuyoruz.
Yürüyüş ve konuşma sekansları – gibi walk-and-talk shots – sinematik otomasyona büyük bir adımdır. Bu zorluğu nasıl ele alıyorsunuz ve rakipleriniz gibi Sora ile karşılaştırıldığınızda nasıl farklılaşıyorsunuz?
Uzun walk-and-talk sekanslarını – multi-dakikalık, sinematik ve doğal hissi veren çekimleri – üretmeye odaklanıyoruz. Müşterilerin, ünlü “Keep Walking” kampanyası gibi videolar üretebilmesini istiyoruz, ancak tam bir üretim ekibine ihtiyaç duymadan. Hızlı ilerleme kaydediyoruz ve çok yakında tutarlı karakterler, hareket ve kamera dinamikleri ile birkaç dakika süren yürüyüş ve konuşma sekansları üretebileceğiz.
OpenAI, Google ve diğerleri uzun form video yarışına girerken, CraftStory’nin bu ortaya çıkan pazardaki avantajını nasıl görüyorsunuz?
AI video pazarı son derece rekabetçi ve büyük oyuncuların teknolojik olarak yakalamalarını bekliyoruz. Ancak bizim avantajımız odak ve hız. Çok iddialı bir yol haritamız var ve hızlı hareket edebilen, hızlı iterasyon yapabilen bir ekibiz. Bu çeviklik ve uzun form, insan merkezli video odaklılığımız, CraftStory’yi ayıran özellikler.
AI tarafından oluşturulan insan videosu daha gerçekçi ve ölçeklenebilir hale geldikçe, bu teknolojinin yayılmasıyla birlikte hangi etik veya yaratıcı korumaların olması gerektiğini düşünüyorsunuz?
Her güçlü teknoloji bir çift taraflı kılıçtır ve piyasaya sürülürken ortaya çıkan özel riskleri anlamak çok önemlidir. AI tarafından oluşturulan insan videosunda, en önemli endişe – ancak tek değil – taklit etme riskidir. Bu riskleri analiz ettik ve belirli zararlı kullanım durumlarını önleyen önlemler aldık. Teknoloji daha gerçekçi ve ölçeklenebilir hale geldikçe, tüm endüstri için güçlü etik ve yaratıcı koruma önlemlerini korumak çok önemli olacak.
Harika röportaj için teşekkür ederiz. Daha fazla bilgi öğrenmek isteyen okuyucular CraftStory‘yi ziyaret edebilir.












