intervjuer
Victor Erukhimov, administrerende direktør i CraftStory – Intervjuserie

Viktor Erukhimov, administrerende direktør i CraftStory, er en FoU-ingeniør innen datasyn som ble gründer. Han bidro til å forme den tidlige utviklingen av OpenCV. Han var senere med på å grunnlegge Itseez og ledet selskapet fra en teknisk oppstartsbedrift til et av verdens ledende forskningsteam innen datasyn, før det ble oppkjøpt av Intel. I løpet av mer enn et tiår gikk han fra teknologidirektør til administrerende direktør og president, og fortsatte denne utviklingen hos Itseez3D, hvor han ledet utviklingen av avanserte mobile 3D-skannings- og avatargenereringsteknologier, samtidig som han var et mangeårig styremedlem i OpenCV.org.
At Håndverkshistorie, fokuserer han nå på AI-basert videoproduksjon, og bygger teknologi som forvandler enkle inndata til svært realistiske videoer som er klare for skaperen. Under hans ledelse utvikler selskapet neste generasjons generative videomodeller designet for markedsføringsteam, lærere og produktfortellere som trenger raskt innhold av høy kvalitet uten studiokostnader.
Du har vært en drivkraft bak noen av de mest innflytelsesrike datasynsprosjektene – fra OpenCV til Itseez3D. Hva inspirerte deg til å grunnlegge CraftStory, og hvordan formet ditt tidligere arbeid visjonen for langformat, AI-video i studiokvalitet?
Før CraftStory jobbet teamet mitt og jeg med Avatar SDK – et verktøy som lager realistiske avatarer fra selfier for VR/AR, spilling, markedsføring og andre applikasjoner. Vi hadde allerede tenkt dypt på digitale mennesker i flere år. Så, for omtrent to år siden, innså vi at GenAI-teknologi for videogenerering var i ferd med å bli god nok til å åpne opp for en helt ny bølge av applikasjoner, og vi hoppet rett inn.
CraftStory ble lansert med skaperne av OpenCV i kjernen. Hvordan pĂĄvirket denne felles bakgrunnen den tekniske retningen og forskningsprioriteringene for Modell 2.0?
Vi lever i en periode med ekstraordinære fremskritt innen datasyn og maskinlæring. Det føles som om alle gjennombruddene innen tidlig kvantemekanikk – opprinnelig spredt over flere tiår – har blitt komprimert til bare noen få år. Bildeforståelse og -generering har utviklet seg langt utover det vi jobbet med da vi utviklet OpenCV. Etter å ha observert denne utviklingen i mer enn et tiår, kommet med spådommer og sett dem lykkes eller mislykkes, har vi fått en dyp intuisjon for hvor teknologien og markedet er på vei. Dette perspektivet formet direkte våre forskningsprioriteringer og veikartet for Modell 2.0.
Modell 2.0 tar tak i noe mange videomodeller sliter med: å opprettholde identitet, følelser og konsistens på tvers av minutter med opptak. Hvilke gjennombrudd gjorde dette mulig?
Identitet og konsistens har vært våre prioriteringer fra dag én. Flere arkitektoniske valg i nettverket ble spesielt utviklet for å håndtere disse utfordringene. Men like viktig var å finjustere modellen på data vi samlet inn selv. Vi filmet profesjonelle skuespillere i et kontrollert studiomiljø ved hjelp av våre egne kameraer med høy bildefrekvens for å sikre at hvert bilde – inkludert raske bevegelser av kropp, hender og fingre – forble skarpt. Det nivået av bevegelsesrike data av høy kvalitet gjorde en betydelig forskjell.
Teamet deres introduserte en parallellisert diffusjonsrørledning for å holde lange sekvenser koherente. Hvilket problem var dette designet for å løse, og hvorfor var det viktig for menneskelig video på flere minutter?
Å kjøre en enkelt diffusjonsprosess over en lang sekvens av rammer er ekstremt utfordrende – det er beregningsmessig dyrt og krever en enorm mengde treningsdata. Vår parallelliserte diffusjonsrørledning løser dette ved å kjøre flere diffusjonsprosesser på forskjellige tidssegmenter samtidig. Det viktigste gjennombruddet var å finne ut hvordan man kobler disse segmentene sammen slik at de forblir koherente og konsistente over lange varigheter. Modell 2.0 kan nå generere videoer på opptil fem minutter, men det er hovedsakelig en teknisk begrensning. Med mer ingeniørarbeid kan vi utvide dette til videoer av i hovedsak vilkårlig lengde.
CraftStory vektlegger realisme i bĂĄde bevegelse og uttrykk. Hva var de vanskeligste utfordringene med ĂĄ bevare naturlig dynamikk i hender, kropp og ansikter over lengre varighet?
Den største utfordringen er å generere realistiske kropps- og ansiktsbevegelser konsekvent over lange varigheter. Små detaljer – som subtile håndbevegelser, skiftende holdning eller mikrouttrykk – har en tendens til å brytes ned i de fleste modeller etter hvert som sekvensen blir lengre. Vi løste dette ved å trene på vårt eget omfattende datasett av høy kvalitet, fanget med profesjonelle skuespillere og kameraer med høy bildefrekvens. Det nivået av kontrollerte, bevegelsesrike opptak ga modellen signalet den trengte for å bevare naturlig dynamikk gjennom hele forestillingen, ikke bare i isolerte øyeblikk.
Mange selskaper sitter fast mellom dyre liveopptak og korte, upålitelige AI-klipp. Hvor ser du den største kommersielle etterspørselen etter flerminutters, menneskesentrisk video?
AI-genererte videoer blir raskt umulige å skille fra kameraopptak, samtidig som de koster en brøkdel av tradisjonell produksjon. Den største tidlige etterspørselen vi ser er innen bedriftsinnhold – spesielt læring og utvikling – der bedrifter trenger store mengder tydelige, menneskesentrerte instruksjonsvideoer som kan oppdateres umiddelbart. Konsistente AI-presentatører over flere minutter er en perfekt løsning for det.
Vi ser også økende interesse for markedsføringsbruksscenarier som produktintroduksjoner, veiledninger og forklaringer. Etter hvert som teknologien modnes, vil langformatsvideo i AI i økende grad erstatte både dyre liveopptak og de korte, upålitelige klippene de fleste verktøy kan produsere i dag.
Dere har bygget et avansert system for leppesynkronisering og bevegelsesjustering. Hvor langt er vi fra fullt troverdig AI-dialog, og hva trenger fortsatt forbedring?
Jeg tror vi er veldig nærme. Én iterasjon til av teknologien – spesielt for å gjøre den raskere og generere innebygd 1080p – vil gi oss fullt ut troverdig AI-dialog.
Tekst-til-video-modellen du utvikler lover generering av lange formater direkte fra manus. Hvilke tekniske barrierer jobber du fortsatt med å overvinne før det blir vanlig?
Det er ingen grunnleggende barrierer – bare mye ingeniørarbeid som gjenstår. Video-til-video var den minste utfordringen, så vi brakte det ut på markedet først. Nå fokuserer vi på bilde-til-video-modellen som tar et skript og et referansebilde som input. Vi gjør raske fremskritt og håper å lansere den i løpet av de neste ukene.
Bevegelige kamerasekvenser – som «walk-and-talk»-bilder – er et stort skritt mot filmautomatisering. Hvordan nærmer teamet ditt seg denne utfordringen sammenlignet med konkurrenter som Sora?
Vi fokuserer på å generere lang «walk-and-talk»-sekvenser – opptak på flere minutter som føles filmatiske og naturlige. Målet vårt er å gi kundene muligheten til å lage videoer i stil med den berømte «Keep Walking»-kampanjen av Johnnie Walker, men uten et fullt produksjonsteam. Vi gjør raske fremskritt, og snart vil vi kunne produsere «walk-and-talk»-sekvenser som går over flere minutter med konsistente karakterer, bevegelser og kameradynamikk.
Med OpenAI, Google og andre i kappløp med langformatvideo, hva ser du på som CraftStorys fortrinn i dette fremvoksende markedet?
Markedet for AI-video er utrolig konkurransepreget, og vi forventer at de store aktørene vil ta igjen teknologisk. Men vår fordel er fokus og fart. Vi har en veldig ambisiøs plan, og vi er et slankt team som kan bevege oss raskt og iterere raskt. Denne smidigheten – og vårt fokus på langformat, menneskesentrisk video – er det som skiller CraftStory fra andre.
Etter hvert som AI-generert menneskelig video blir mer naturtro og skalerbar, hvilke etiske eller kreative sikkerhetstiltak mener du bør være på plass etter hvert som denne teknologien sprer seg?
Enhver kraftig teknologi er et tveegget sverd, og det er avgjørende å forstå de spesifikke risikoene som følger med å bringe den ut på markedet. I AI-generert menneskelig video er etterligning den viktigste – men ikke den eneste – bekymringen. Vi har brukt tid på å analysere disse risikoene og har implementert sikkerhetstiltak som forhindrer visse skadelige brukstilfeller. Etter hvert som teknologien blir mer naturtro og skalerbar, vil det være avgjørende for hele bransjen å opprettholde sterke etiske og kreative beskyttelser.
Takk for det flotte intervjuet, lesere som ønsker å lære mer bør besøke Håndverkshistorie.












