Connect with us

Victor Erukhimov, administrerende direktør for CraftStory – Intervju-serie

Interviews

Victor Erukhimov, administrerende direktør for CraftStory – Intervju-serie

mm

Victor Erukhimov, administrerende direktør for CraftStory, er en computer-vision R&D-ingeniør, der er blevet iværksætter, og som hjalp med at forme den tidlige udvikling af OpenCV, og senere var med til at grundlægge Itseez og guide det fra et teknisk startup til et af verdens førende computer-vision-forskningshold, før det blev opkøbt af Intel. Over mere end et årti udviklede han sig fra CTO til CEO til præsident, og fortsatte denne udvikling på Itseez3D, hvor han ledte udviklingen af avancerede mobile 3D-scanning- og avatar-genererings-teknologier, mens han også fungerede som en langvarig bestyrelsesmedlem i OpenCV.org.

Hos CraftStory fokuserer han nu på AI-naturlig video-oprettelse, hvor han bygger teknologi, der omdanner simple indtastninger til meget realistiske, skabervenlige videoer. Under hans ledelse udvikler virksomheden næste generations generative video-modeller, der er designet til marketinghold, undervisere og produktfortællere, der har brug for hurtig, højkvalitetsindhold uden studie-overhoved.

Du har været en drivende kraft bag nogle af de mest indflydelsesrige computer-vision-projekter – fra OpenCV til Itseez3D. Hvad inspirerede dig til at grundlægge CraftStory, og hvordan formede din tidligere arbejde visionen for lang-form, studio-kvalitets AI-video?

Før CraftStory arbejdede min team og jeg på Avatar SDK – et værktøj, der opretter realistiske avatars fra selfies til VR/AR, gaming, marketing og andre anvendelser. Vi havde allerede tænkt dybt over digitale mennesker i flere år. Så, for omkring to år siden, indså vi, at GenAI-teknologien til video-generering var blevet god nok til at låse op for en helt ny bølge af anvendelser, og vi sprang lige ind.

CraftStory startede med skaberne af OpenCV som kerne. Hvordan påvirkede denne fælles baggrund den tekniske retning og forskningsprioriteterne for Model 2.0?

Vi lever i en periode med ekstraordinær fremgang i computer-vision og maskinlæring. Det føles, som om alle gennembruddene fra den tidlige kvantemekanik – oprindeligt spredt over årtier – er blevet komprimeret til blot få år. Billede-forståelse og -generering er fremrykket langt ud over, hvad vi arbejdede med, da vi udviklede OpenCV. Ved at have observeret denne udvikling i mere end et årti har vi opnået en dyb intuition for, hvor teknologien og markedet er på vej. Denne perspektiv har direkte formede vores forskningsprioriteter og vejledning for Model 2.0.

Model 2.0 tager fat på noget, mange video-modeller kæmper med: at opretholde identitet, emotion og konsistens over flere minutter af footage. Hvad var gennembruddene, der gjorde dette muligt?

Identitet og konsistens har været vores prioriteringer fra dag én. Flere arkitektoniske valg i netværket var specifikt designet til at tackle disse udfordringer. Men lige så vigtigt var det at finjustere modellen på data, vi selv havde indsamlet. Vi filmede professionelle skuespillere i en kontrolleret studie-miljø med vores egne høj-frames-rate-kameraer for at sikre, at hver enkelt frame – inklusive hurtige bevægelser af kroppen, hænder og fingre – forblev skarp. Det niveau af højkvalitets-, bevægelses-rig data gjorde en betydelig forskel.

Dit team introducerede en paralleliseret diffusions-proces for at holde lange sekvenser koherente. Hvad var problemet, dette var designet til at løse, og hvorfor var det essentiel for multi-minutters menneske-video?

At køre en enkelt diffusions-proces over en lang sekvens af frames er ekstremt udfordrende – det er computermæssigt dyrt og kræver en enorm mængde træningsdata. Vores paralleliserede diffusions-proces løser dette ved at køre flere diffusions-processer på forskellige tids-segmenter samtidigt. Gennembruddet var at figurere ud, hvordan man kan forbinde disse segmenter, så de forbliver koherente og konsistente over lange varigheder. Model 2.0 kan nu generere videoer op til fem minutter, men det er hovedsageligt en teknisk begrænsning. Med mere ingeniør-arbejde kan vi udvide dette til videoer af næsten vilkårlig længde.

CraftStory betoner realisme i både bevægelse og udtryk. Hvad var de største udfordringer i at bevare naturlig hånd-, krops- og ansigts-dynamik over længere varigheder?

Den største udfordring er at generere realistiske krops- og ansigts-bevægelser konsekvent over lange varigheder. Små detaljer – som subtile hånd-bevægelse, skiftende holdning eller mikro-udtryk – har tendens til at bryde sammen i de fleste modeller, når sekvensen bliver længere. Vi løste dette ved at træne på vores eget omfattende, høj-kvalitets-dataset, optaget med professionelle skuespillere og høj-frames-rate-kameraer. Det niveau af kontrolleret, bevægelses-rig footage gav modellen signalen, den havde brug for for at bevare naturlig dynamik over hele præstationen, ikke kun i isolerede øjeblikke.

Mange virksomheder er fastlåst mellem dyre live-optagelser og korte, upålidelige AI-klip. Hvor ser du den største kommercielle efterspørgsel efter multi-minutters, menneske-centreret video?

AI-genererede videoer er hurtigt blevet umulige at skelne fra kamera-optagelser, mens de kun koster en brøkdel af traditionel produktion. Den største tidlige efterspørgsel, vi ser, er i virksomheds-indhold – især Lærings- og Udviklings-indhold – hvor virksomheder har brug for store mængder af klare, menneske-centrerede instruktionsvideoer, der kan opdateres øjeblikkeligt. Multi-minutters, konsistente AI-præsentatorer er et perfekt match til det.

Vi ser også en stigende interesse i marketing-anvendelser som produkt-introduktioner, tutorials og forklarende videoer. Da teknologien modnes, vil lang-form AI-video i stigende grad erstatte både dyre live-optagelser og de korte, upålidelige klip, de fleste værktøjer kan producere i dag.

Du har bygget et avanceret lip-sync- og gestus-alignment-system. Hvor langt er vi fra fuldt overbevisende AI-samtale, og hvad mangler der stadig forbedring?

Jeg tror, vi er meget tæt på. En mere iteration af teknologien – især for at gøre den hurtigere og generere native 1080p – vil bringe os til fuldt overbevisende AI-samtale.

Den tekst-til-video-model, du udvikler, lover lang-form-generering direkte fra manuskripter. Hvad tekniske barrierer arbejder du stadig på at overvinde, før det bliver mainstream?

Der er ingen fundamentale barrierer – kun en masse ingeniør-arbejde foran os. Video-til-video var det letteste frugt, så vi bragte det til markedet først. Nu fokuserer vi på billed-til-video-modellen, der tager et manuskript og et reference-billede som input. Vi gør hurtige fremskridt og håber at udgive det inden for de næste få uger.

Bevægelige-kamera-sekvenser – som gå-og-tal- optagelser – er et større skridt mod cinematiske automation. Hvordan nærmer dit team sig denne udfordring i forhold til konkurrenter som Sora?

Vi fokuserer på at generere lange gå-og-tal-sekvenser – multi-minutters optagelser, der føles cinematiske og naturlige. Vores mål er at give kunderne mulighed for at skabe videoer i stil med den berømte “Keep Walking”-kampagne fra Johnnie Walker, men uden en fuld produktionsskrew. Vi gør hurtige fremskridt, og meget snart vil vi kunne producere gå-og-tal-sekvenser, der kører i flere minutter med konsistente karakterer, bevægelse og kamera-dynamik.

Med OpenAI, Google og andre, der løber ind i lang-form-video, hvad ser du som CraftStorys fordel i denne opblomstrende marked?

AI-video-markedet er utrolig konkurrencedygtigt, og vi forventer fuldt ud, at de store spillere vil indhente teknologisk. Men vores fordel er fokus og hastighed. Vi har en meget ambitiøs vejledning, og vi er et lean-team, der kan bevæge sig hurtigt og iterere hurtigt. Den agility – og vores fokus på lang-form, menneske-centreret video – er, hvad der adskiller CraftStory.

Da AI-genereret menneske-video bliver mere livagtig og skalerbar, hvad etiske eller kreative sikkerhedsforanstaltninger tror du, bør være på plads, når denne teknologi spreder sig?

Hver kraftfuld teknologi er en dobbeltægget sværd, og det er afgørende at forstå de specifikke risici, der følger med at bringe den til markedet. I AI-genereret menneske-video er efterligning den mest betydelige – om end ikke den eneste – bekymring. Vi har brugt tid på at analysere disse risici og har implementeret sikkerhedsforanstaltninger, der forhindrer visse skadelige brugsområder. Da teknologien bliver mere livagtig og skalerbar, vil det være afgørende at opretholde stærke etiske og kreative beskyttelser for hele branchen.

Tak for det gode interview, læsere, der ønsker at lære mere, skal besøge CraftStory.

Antoine er en visionær leder og medstifter af Unite.AI, drevet af en urokkelig passion for at forme og fremme fremtiden for AI og robotteknologi. En serieiværksætter, han tror, at AI vil være lige så omvæltende for samfundet som elektricitet, og bliver ofte fanget i at tale begejstret om potentialet for omvæltende teknologier og AGI.

Som en futurist, er han dedikeret til at udforske, hvordan disse innovationer vil forme vores verden. Derudover er han grundlægger af Securities.io, en platform, der fokuserer på at investere i skærende teknologier, der gendefinerer fremtiden og omformer hele sektorer.