Intervjuer
Victor Erukhimov, CEO av CraftStory – Intervju-serie

Victor Erukhimov, CEO av CraftStory, er en datamaskin-vision R&D-ingeniør som har blitt entreprenør, som hjalp å forme den tidlige utviklingen av OpenCV, og senere var med å grunnlegge Itseez og ledet det fra et teknisk startup til et av verdens ledende datamaskin-vision-forskningslag før det ble kjøpt av Intel. Over mer enn et tiår, gikk han fra CTO til CEO til president, og fortsatte denne banen i Itseez3D, hvor han ledet utviklingen av avanserte mobile 3D-scanning- og avatar-genererings-teknologier, samtidig som han også var en langvarig styremedlem i OpenCV.org.
På CraftStory fokuserer han nå på AI-nativ video-opprettelse, og bygger teknologi som transformerer enkle inndata til høyst realistiske, skapende-klare videoer. Under hans ledelse utvikler selskapet neste-generasjons generative video-modeller designet for markedsføringslag, utdannere og produkt-fortellere som trenger rask, høykvalitets-innhold uten studio-overhode.
Du har vært en drivende kraft bak noen av de mest innflytelsesrike datamaskin-vision-prosjektene – fra OpenCV til Itseez3D. Hva inspirerte deg til å grunnlegge CraftStory, og hvordan har din tidligere arbeid formet visjonen for lang-form, studio-kvalitets AI-video?
Før CraftStory, jobbet mitt team og jeg med Avatar SDK – et verktøy som lager realistiske avatars fra selfies for VR/AR, spill, markedsføring og andre applikasjoner. Vi hadde allerede vært dypt engasjert i digitale mennesker i flere år. Så, for omtrent to år siden, innsett vi at GenAI-teknologi for video-generering var blitt god nok til å låse opp en helt ny bølge av applikasjoner, og vi hoppet rett inn.
CraftStory ble lansert med skaperne av OpenCV som kjerne. Hvordan har denne felles bakgrunnen påvirket den tekniske retningen og forskningsprioritetene for Model 2.0?
Vi lever i en periode med ekstraordinær fremgang i datamaskin-vision og maskinlæring. Det føles som om alle gjennombruddene i tidlig kvantemekanikk – opprinnelig spredt over tiår – har blitt komprimert til bare noen få år. Bilde-forståelse og generering har gått langt beyond hva vi jobbet med da vi utviklet OpenCV. Ved å ha observert denne utviklingen i over et tiår, og gjort prediksjoner og sett dem lykkes eller feile, har vi fått en dyp intuitiv forståelse for hvor teknologien og markedet er på vei. Denne perspektiven har direkte formet våre forskningsprioriteter og veikartet for Model 2.0.
Model 2.0 løser noe mange video-modeller sliter med: å opprettholde identitet, emosjon og konsistens over minutter av film. Hva var gjennombruddene som gjorde dette mulig?
Identitet og konsistens har vært våre prioriteringer fra dag én. Flere arkitektoniske valg i nettverket var spesifikt designet for å løse disse utfordringene. Men like viktig var finjustering av modellen på data vi samlet inn selv. Vi filmet profesjonelle skuespillere i en kontrollert studio-miljø med våre egne høy-framerate-kameraer for å sikre at hver enkelt ramme – inkludert raske bevegelser av kroppen, hendene og fingrene – forblev skarpe. Denne niveauet av høykvalitets-, bevegelses-rik data gjorde en betydelig forskjell.
Ditt team innførte en parallell diffusjon-pipeline for å holde lange sekvenser koherente. Hva var problemet dette var designet for å løse, og hvorfor var det essensielt for multi-minutters menneske-video?
Å kjøre en enkelt diffusjonsprosess over en lang sekvens av rammer er ekstremt utfordrende – det er komputasjonelt dyrt og krever en enorm mengde trening-data. Vår parallelliserte diffusjons-pipeline løser dette ved å kjøre flere diffusjons-prosesser på ulike tids-segmenter samtidig. Gjennombruddet var å finne ut hvordan å koble disse segmentene sammen så de forblev koherente og konsistente over lange varigheter. Model 2.0 kan nå generere videoer opptil fem minutter, men det er hovedsakelig en teknisk begrensning. Med mer ingeniør-arbeid kan vi utvide dette til videoer av i praksis vilkårlig lengde.
CraftStory legger vekt på realisme i både bevegelse og uttrykk. Hva var de hardeste utfordringene i å bevare naturlig hånd-, kropp- og ansikts-dynamikk over lengre varigheter?
Den største utfordringen er å generere realistiske kropp- og ansikts-bevegelser konsistent over lange varigheter. Små detaljer – som subtile hånd-bevegelser, skiftende holdning eller mikro-uttrykk – tenderer til å bryte sammen i de fleste modeller når sekvensen blir lengre. Vi løste dette ved å trene på vår egen omfattende, høykvalitets-datasett, innhentet med profesjonelle skuespillere og høy-framerate-kameraer. Denne niveauet av kontrollert, bevegelses-rik film ga modellen signalen den trengte for å bevare naturlig dynamikk over hele fremføringen, ikke bare i isolerte øyeblikk.
Mange selskaper er fastlåst mellom dyre live-innspillinger og korte, upålitelige AI-klipp. Hvor ser du den største kommersielle etterspørselen etter multi-minutters, menneske-sentrert video?
AI-genererte videoer blir raskt umulig å skille fra kamera-innspilte filmer, samtidig som de koster en brøkdel av tradisjonell produksjon. Den største tidlige etterspørselen vi ser er i bedriftsinhold – spesielt Læring & Utvikling – hvor selskaper trenger store volumer av klare, menneske-sentrerte instruksjonsvideoer som kan oppdateres øyeblikkelig. Multi-minutters, konsistente AI-presentatører er et perfekt match for det.
Vi ser også en økende interesse i markedsførings-bruksområder som produkt-introduksjoner, tutoriale og forklarende videoer. Etterhvert som teknologien modnes, vil lang-form AI-video i økende grad erstatte både dyre live-innspillinger og de korte, upålitelige klipp de fleste verktøy kan produsere i dag.
Du har bygget et avansert lip-sync- og gest-alignment-system. Hvor langt er vi fra fullt troverdige AI-samtaler, og hva trenger fortsatt forbedring?
Jeg tror vi er svært nær. En mer iterasjon av teknologien – spesielt for å gjøre den raskere og generere native 1080p – vil bringe oss til fullt troverdige AI-samtaler.
Den tekst-til-video-modellen du utvikler lover lang-form-generering direkte fra manuskripter. Hva tekniske barrierer jobber du fortsatt med å overvinne før dette blir mainstream?
Det finnes ingen fundamentale barrierer – bare en del ingeniør-arbeid foran. Video-til-video var den lavest hengende frukten, så vi tok det til markedet først. Nå fokuserer vi på bilde-til-video-modellen som tar et manuskript og et referanse-bilde som inndata. Vi gjør rask fremgang og håper å slippe det innen de neste få ukene.
Bevegelige kamera-sekvenser – som gå-og-snakk-skudd – er et stort skritt mot kinematisk automatisering. Hvordan nærmer ditt team deg denne utfordringen i forhold til konkurrenter som Sora?
Vi fokuserer på å generere lange gå-og-snakk-sekvenser – multi-minutters skudd som føles kinematisk og naturlig. Vårt mål er å gi kundene muligheten til å lage videoer i stil med den berømte “Keep Walking”-kampanjen av Johnnie Walker, men uten en full produksjonsmannskap. Vi gjør rask fremgang, og svært snart vil vi kunne produsere gå-og-snakk-sekvenser som varer i flere minutter med konsistente karakterer, bevegelse og kamera-dynamikk.
Med OpenAI, Google og andre som kappler inn i lang-form-video, hva ser du som CraftStorys fordel i denne nye markedet?
AI-video-markedet er ekstremt konkurransedyktig, og vi forventer fullt ut at de store aktørene vil holde tritt teknologisk. Men vår fordel er fokus og hastighet. Vi har en svært ambisiøs veikart, og vi er et slankt team som kan bevege seg raskt og iterere raskt. Denne evnen – og vår fokus på lang-form, menneske-sentrert video – er hva som skiller CraftStory fra andre.
Etterhvert som AI-generert menneske-video blir mer realistisk og skalerbar, hva mener du bør være på plass som etiske eller kreative beskyttelsesforanstaltninger når denne teknologien sprenger?
Hver kraftfull teknologi er en dobbelt-egget sverd, og det er avgjørende å forstå de spesifikke risikoene som følger med å bringe den til markedet. I AI-generert menneske-video er personliggjøring den mest betydelige – om ikke den eneste – bekymringen. Vi har brukt tid på å analysere disse risikoene og har implementert beskyttelsesforanstaltninger som forhindrer visse skadelige bruksområder. Etterhvert som teknologien blir mer realistisk og skalerbar, vil det å opprettholde sterke etiske og kreative beskyttelsesforanstaltninger være essensielt for hele industrien.
Takk for det flotte intervjuet, lesere som ønsker å lære mer bør besøke CraftStory.












