Interviste
Victor Erukhimov, CEO di CraftStory – Serie di Interviste

Victor Erukhimov, CEO di CraftStory, è un ingegnere di ricerca e sviluppo di computer vision diventato imprenditore che ha contribuito a plasmare l’evoluzione iniziale di OpenCV, più tardi co-fondando Itseez e guidandola da una startup tecnica a una delle principali squadre di ricerca di computer vision del mondo prima dell’acquisizione da parte di Intel. Nel corso di oltre un decennio, è passato da CTO a CEO a Presidente e ha continuato quella traiettoria in Itseez3D, dove ha guidato lo sviluppo di tecnologie di scansione 3D mobile avanzate e di generazione di avatar, mentre fungeva anche da membro del consiglio di amministrazione di lunga data di OpenCV.org.
In CraftStory, si concentra ora sulla creazione di video nativi AI, costruendo tecnologie che trasformano input semplici in video creator-ready altamente realistici. Sotto la sua guida, l’azienda sta sviluppando modelli di video generativi di prossima generazione progettati per team di marketing, educatori e storyteller di prodotti che necessitano di contenuti di alta qualità senza sovraccarico di studio.
È stato una forza trainante dietro alcuni dei progetti di computer vision più influenti – da OpenCV a Itseez3D. Cosa l’ha ispirato a fondare CraftStory e come il suo lavoro precedente ha plasmato la visione per il video AI di lunga durata e di alta qualità?
Prima di CraftStory, il mio team e io stavamo lavorando su Avatar SDK – uno strumento che crea avatar realistici da selfie per VR/AR, gaming, marketing e altre applicazioni. Avevamo già riflettuto a lungo sugli esseri umani digitali. Poi, circa due anni fa, ci rendemmo conto che la tecnologia GenAI per la generazione di video stava diventando abbastanza buona da sbloccare un’intera nuova ondata di applicazioni e ci siamo buttati dentro.
CraftStory è stata lanciata con i creatori di OpenCV al suo nucleo. Come ha influenzato la direzione tecnica e le priorità di ricerca per il Modello 2.0?
Stiamo vivendo in un periodo di progresso straordinario nel campo della visione artificiale e dell’apprendimento automatico. Sembra che tutti i progressi della meccanica quantistica dei primi tempi – originariamente distribuiti su decenni – siano stati compressi in pochi anni. La comprensione e la generazione di immagini sono avanzate ben oltre ciò con cui stavamo lavorando quando sviluppavamo OpenCV. Avendo osservato questa evoluzione per oltre un decennio, facendo previsioni e vedendole avere successo o fallire, abbiamo guadagnato un’intuizione profonda su dove la tecnologia e il mercato stanno andando. Quella prospettiva ha plasmato direttamente le nostre priorità di ricerca e la roadmap per il Modello 2.0.
Il Modello 2.0 affronta qualcosa con cui molti modelli di video lottano: mantenere l’identità, l’emozione e la coerenza attraverso minuti di footage. Quali innovazioni hanno reso possibile questo?
L’identità e la coerenza sono state le nostre priorità fin dal primo giorno. Diverse scelte architettoniche nella rete sono state progettate specificamente per affrontare queste sfide. Ma altrettanto importante è stata la fine-tuning del modello sui dati che abbiamo raccolto noi stessi. Abbiamo filmato attori professionisti in un ambiente di studio controllato utilizzando le nostre stesse telecamere ad alta frequenza di quadro per assicurarci che ogni frame – compresi i movimenti veloci del corpo, delle mani e delle dita – rimanesse nitido. Quel livello di dati di alta qualità e ricchi di movimento ha fatto una differenza significativa.
Il suo team ha introdotto una pipeline di diffusione parallelizzata per mantenere le sequenze lunghe coerenti. Qual era il problema che doveva risolvere e perché era essenziale per i video umani multi-minuto?
Eseguire un singolo processo di diffusione su una lunga sequenza di frame è estremamente impegnativo – è computazionalmente costoso e richiede una quantità massiccia di dati di allenamento. La nostra pipeline di diffusione parallelizzata risolve questo eseguendo più processi di diffusione su segmenti di tempo diversi contemporaneamente. L’innovazione chiave è stata capire come collegare questi segmenti in modo che rimangano coerenti e consistenti su lunghe durate. Il Modello 2.0 può ora generare video fino a cinque minuti, ma questo è principalmente un vincolo tecnico. Con ulteriori lavori di ingegneria, possiamo estendere questo a video di lunghezza essenzialmente arbitraria.
CraftStory enfatizza il realismo sia nel movimento che nell’espressione. Quali sono stati i problemi più difficili nel preservare la dinamica naturale delle mani, del corpo e del viso a durate più lunghe?
La sfida più grande è generare movimenti del corpo e del viso realistici costantemente su lunghe durate. I dettagli piccoli – come i movimenti sottili delle mani, le posture che cambiano o le micro-espressioni – tendono a rompersi nella maggior parte dei modelli man mano che la sequenza si allunga. Abbiamo risolto questo allenando il modello sui nostri stessi dati di alta qualità, catturati con attori professionisti e telecamere ad alta frequenza di quadro. Quel livello di footage ricco di movimento e controllato ha dato al modello il segnale di cui aveva bisogno per preservare la dinamica naturale in tutta la performance, non solo in momenti isolati.
Molte aziende sono bloccate tra costose riprese live e clip AI brevi e inaffidabili. Dove vede la maggiore domanda commerciale emergente per video umani multi-minuto?
I video generati da AI stanno diventando rapidamente indistinguibili da quelli girati con la telecamera, mentre costano una frazione della produzione tradizionale. La maggiore domanda iniziale che stiamo vedendo è nel contenuto aziendale – specialmente nella formazione e sviluppo – dove le aziende necessitano di grandi volumi di video istruttivi umano-centrici chiari che possono essere aggiornati all’istante. I presentatori AI multi-minuto coerenti sono una soluzione perfetta per questo.
Stiamo anche vedendo un crescente interesse in casi d’uso di marketing come presentazioni di prodotti, tutorial ed esplicazioni. Man mano che la tecnologia matura, i video lunghi di AI sostituiranno sempre più le riprese live costose e i clip brevi e inaffidabili che la maggior parte degli strumenti può produrre oggi.
Ha costruito un sistema avanzato di sincronizzazione labiale e allineamento dei gesti. Quanto siamo lontani da un dialogo AI completamente credibile e cosa deve ancora essere migliorato?
Penso che siamo molto vicini. Un’altra iterazione della tecnologia – specialmente per renderla più veloce e generare nativamente 1080p – ci porterà a un dialogo AI completamente credibile.
Il modello di testo-video che sta sviluppando promette generazione lunga diretta da script. Quali barriere tecniche sta ancora lavorando per superare prima che diventi mainstream?
Non ci sono barriere fondamentali – solo molto lavoro di ingegneria davanti a noi. Il video-video era il frutto più a portata di mano, quindi lo abbiamo portato per primo sul mercato. Ora ci stiamo concentrando sul modello di immagine-video che prende uno script e un’immagine di riferimento come input. Stiamo facendo rapidi progressi e speriamo di rilasciarlo nelle prossime settimane.
Le sequenze di ripresa con telecamera in movimento – come le riprese di camminata e conversazione – sono un grande passo verso l’automazione cinematografica. Come sta affrontando la sua squadra questa sfida rispetto ai concorrenti come Sora?
Ci stiamo concentrando sulla generazione di lunghe sequenze di camminata e conversazione – riprese multi-minuto che sembrano cinematografiche e naturali. Il nostro obiettivo è dare ai clienti la capacità di creare video nello stile della famosa campagna “Keep Walking” di Johnnie Walker, ma senza un’intera squadra di produzione. Stiamo facendo rapidi progressi e molto presto saremo in grado di produrre sequenze di camminata e conversazione che durano diversi minuti con personaggi coerenti, movimento e dinamiche della telecamera.
Con OpenAI, Google e altri che si affrettano verso il video lungo, cosa vede come il vantaggio di CraftStory in questo mercato emergente?
Il mercato del video AI è incredibilmente competitivo e ci aspettiamo che i grandi giocatori colmino la lacuna tecnologica. Ma il nostro vantaggio è la focalizzazione e la velocità. Abbiamo una roadmap molto ambiziosa e siamo un team agile che può muoversi velocemente e iterare rapidamente. Quella agilità – e la nostra focalizzazione sul video umano di lunga durata – è ciò che distingue CraftStory.
Man mano che il video umano generato da AI diventa più realistico e scalabile, quali salvaguardie etiche o creative ritiene debbano essere in atto mentre questa tecnologia si diffonde?
Ogni tecnologia potente è una spada a doppio taglio e è cruciale capire i rischi specifici che derivano dal portarla sul mercato. Nel video umano generato da AI, l’impersonificazione è la preoccupazione più significativa – sebbene non l’unica. Abbiamo trascorso del tempo analizzando questi rischi e abbiamo implementato salvaguardie che impediscono determinati casi d’uso dannosi. Man mano che la tecnologia diventa più realistica e scalabile, mantenere forti protezioni etiche e creative sarà essenziale per l’intera industria.
Grazie per la grande intervista, i lettori che desiderano saperne di più possono visitare CraftStory.












