Intervjuer

Victor Erukhimov, VD för CraftStory – Intervjuserie

mm

Victor Erukhimov, VD för CraftStory, är en datorseendeutvecklare som blev entreprenör och hjälpte forma den tidiga utvecklingen av OpenCV, och senare medgrundade Itseez och ledde det från ett tekniskt startup till ett av världens ledande datorseendeforskningslag innan det förvärvades av Intel. Under mer än ett decennium avancerade han från CTO till VD till president, och fortsatte den banan på Itseez3D, där han ledde utvecklingen av avancerad mobil 3D-scanning och avatar-genereringsteknik samtidigt som han också var en långvarig styrelseledamot i OpenCV.org.

CraftStory fokuserar han nu på AI-nativ videokreation, och bygger teknologi som förvandlar enkla indata till högrealistiska, skapar-klara videor. Under hans ledning utvecklar företaget nästa generations generativa videomodeller som är utformade för marknadsföringsteam, utbildare och produktberättare som behöver snabb, högkvalitativ innehåll utan studioöverhuvud.

Du har varit en drivande kraft bakom några av de mest inflytelserika datorseendeprojekten – från OpenCV till Itseez3D. Vad inspirerade dig att grunda CraftStory, och hur har ditt tidigare arbete format visionen för långform, studio-kvalitets AI-video?

Innan CraftStory arbetade min team och jag med Avatar SDK – ett verktyg som skapar realistiska avatars från selfies för VR/AR, spel, marknadsföring och andra tillämpningar. Vi hade redan tänkt djupt om digitala människor under flera år. Sedan, för ungefär två år sedan, insåg vi att GenAI-tekniken för videogenerering var tillräckligt bra för att låsa upp en helt ny våg av tillämpningar, och vi hoppade rakt in.

CraftStory lanserades med skaparna av OpenCV i dess kärna. Hur påverkade den delade bakgrunden den tekniska riktningen och forskningsprioriteterna för Model 2.0?

Vi lever i en period av extraordinär framsteg inom datorseende och maskinlärning. Det känns som att alla genombrotten inom tidig kvantmekanik – ursprungligen spridda över decennier – har komprimerats till bara några år. Bildförståelse och generering har utvecklats långt bortom vad vi arbetade med när vi utvecklade OpenCV. Genom att ha observerat denna utveckling under mer än ett decennium, och gjort förutsägelser och sett dem lyckas eller misslyckas, har vi fått en djup intuition för vart tekniken och marknaden är på väg. Den perspektiven formade direkt våra forskningsprioriteter och vägkarta för Model 2.0.

Model 2.0 hanterar något som många videomodeller kämpar med: att upprätthålla identitet, känsla och konsekvens över minuter av film. Vilka genombrott gjorde detta möjligt?

Identitet och konsekvens har varit våra prioriteringar från dag ett. Flera arkitekturval i nätverket var specifikt utformade för att hantera dessa utmaningar. Men lika viktigt var att finjustera modellen på data vi samlade in själva. Vi filmade professionella skådespelare i en kontrollerad studio-miljö med våra egna höghastighetskameror för att säkerställa att varje ram – inklusive snabba rörelser av kroppen, händerna och fingrarna – förblev skarp. Den nivån av högkvalitativ, rik data gjorde en betydande skillnad.

Ditt team introducerade en parallell diffusionspipeline för att hålla långa sekvenser koherenta. Vilket problem var detta utformat för att lösa, och varför var det essentiellt för multi-minuters mänsklig video?

Att köra en enda diffusionsprocess över en lång sekvens av ramar är extremt utmanande – det är dyrt och kräver en enorm mängd träningsdata. Vår parallelliserade diffusionspipeline löser detta genom att köra flera diffusionsprocesser på olika tidssegment samtidigt. Det viktigaste genombrottet var att lista ut hur man kopplar ihop dessa segment så att de förblir koherenta och konsekventa över långa varaktigheter. Model 2.0 kan nu generera videor upp till fem minuter, men det är främst ett tekniskt hinder. Med mer ingenjörsarbete kan vi förlänga detta till videor av i princip godtycklig längd.

CraftStory betonar realism i både rörelse och uttryck. Vilka var de svåraste utmaningarna i att bevara naturliga hand-, kropp- och ansiktsdynamik vid längre varaktigheter?

Den största utmaningen är att generera realistiska kropp- och ansiktsrörelser konsekvent över långa varaktigheter. Små detaljer – som subtila handrörelser, skiftande hållning eller mikro-uttryck – tenderar att bryta samman i de flesta modeller när sekvensen blir längre. Vi löste detta genom att träna på vår egen omfattande, högkvalitativa dataset, som samlades in med professionella skådespelare och höghastighetskameror. Den nivån av kontrollerad, rik data gav modellen den signal den behövde för att bevara naturliga dynamik över hela prestationen, inte bara i isolerade ögonblick.

Många företag är fast mellan dyra live-inspelningar och korta, opålitliga AI-klipp. Var ser du den största kommersiella efterfrågan på multi-minuters, mänsklig video?

AI-genererade videor blir snabbt oändliga från kamerainspelade sekvenser, samtidigt som de kostar en bråkdel av traditionell produktion. Den största tidiga efterfrågan vi ser är inom företagsinnehåll – särskilt Lärande och Utveckling – där företag behöver stora volymer av tydliga, mänskliga instruktionsvideor som kan uppdateras omedelbart. Multi-minuters, konsekventa AI-presenter är en perfekt passning för det.

Vi ser också ett växande intresse för marknadsanvändningsfall som produktintroduktioner, tutorials och förklarande videor. När tekniken mognar kommer långformad AI-video alltmer att ersätta både dyra live-inspelningar och de korta, opålitliga klipp som de flesta verktyg kan producera idag.

Du har byggt ett avancerat läppsynk- och gestaligneringssystem. Hur långt är vi ifrån fullt trovärdig AI-dialog, och vad behöver förbättras?

Jag tror att vi är mycket nära. En iteration till av tekniken – särskilt för att göra den snabbare och generera nativ 1080p – kommer att få oss till fullt trovärdig AI-dialog.

Den text-till-video-modell du utvecklar lovar långformsgenerering direkt från manus. Vilka tekniska hinder arbetar du fortfarande med för att övervinna innan det blir mainstream?

Det finns inga grundläggande hinder – bara en hel del ingenjörsarbete framför oss. Video-till-video var den lägre hängande frukten, så vi tog den till marknaden först. Nu fokuserar vi på bild-till-video-modellen som tar ett manus och en referensbild som indata. Vi gör snabb framsteg och hoppas att släppa det inom de närmaste veckorna.

Rörliga kamerasekvenser – som gå-och-prata-tagningar – är ett stort steg mot cinematisering. Hur närmar sig ditt team denna utmaning jämfört med konkurrenter som Sora?

Vi fokuserar på att generera långa gå-och-prata-sekvenser – multi-minuters tagningar som känns cinematiska och naturliga. Vårt mål är att ge kunderna möjligheten att skapa videor i stil med den berömda “Keep Walking”-kampanjen av Johnnie Walker, men utan en full produktionsteam. Vi gör snabb framsteg, och mycket snart kommer vi att kunna producera gå-och-prata-sekvenser som körs under flera minuter med konsekventa karaktärer, rörelse och kameradynamik.

Med OpenAI, Google och andra som tävlar inom långformad video, vad ser du som CraftStorys fördel i denna framväxande marknad?

AI-videomarknaden är otroligt konkurrensutsatt, och vi förväntar oss fullständigt att de stora spelarna kommer att komma ikapp tekniskt. Men vår fördel är fokus och hastighet. Vi har en mycket ambitiös vägkarta, och vi är ett smalt team som kan röra sig snabbt och iterera snabbt. Den agiliteten – och vår fokus på långformad, mänsklig video – är vad som särskiljer CraftStory.

När AI-genererad mänsklig video blir mer verklighetstrogen och skalbar, vad tror du bör finnas till som etiska eller kreativa skydd när denna teknologi sprids?

Varje kraftfull teknologi är en dubbelkantad svärd, och det är avgörande att förstå de specifika risker som kommer med att ta den till marknaden. I AI-genererad mänsklig video är imitation den mest signifikanta – men inte den enda – oron. Vi har tillbringat tid med att analysera dessa risker och har implementerat skydd som förhindrar vissa skadliga användningsfall. När tekniken blir mer verklighetstrogen och skalbar kommer det att vara avgörande att upprätthålla starka etiska och kreativa skydd för hela branschen.

Tack för den underbara intervjun, läsare som vill lära sig mer kan besöka CraftStory.

Antoine Àr en visionÀr ledare och medgrundare av Unite.AI, driven av en outtröttlig passion för att forma och frÀmja framtiden för AI och robotik. En serieentreprenör, han tror att AI kommer att vara lika omstörtande för samhÀllet som elektricitet, och fÄngas ofta i extas över potentialen för omstörtande teknologier och AGI. Som en futurist, Àr han dedikerad till att utforska hur dessa innovationer kommer att forma vÄr vÀrld. Dessutom Àr han grundare av Securities.io, en plattform som fokuserar pÄ att investera i banbrytande teknologier som omdefinierar framtiden och omformar hela sektorer.