Interviews

Victor Erukhimov, CEO van CraftStory – Interviewreeks

mm

Victor Erukhimov, CEO van CraftStory, is een computer-vision R&D-engineer die ondernemer is geworden en die heeft geholpen bij de vroege evolutie van OpenCV, later mede-oprichter van Itseez en het leiden van het bedrijf van een technisch startup naar een van de wereldleidende computer-vision onderzoeksteams voordat het werd overgenomen door Intel. In meer dan een decennium is hij gevorderd van CTO naar CEO naar President, en heeft hij die traject voortgezet bij Itseez3D, waar hij de ontwikkeling van geavanceerde mobiele 3D-scanning en avatar-generatietechnologieën leidde, evenals een langdurig bestuurslid van OpenCV.org.

Bij CraftStory richt hij zich nu op AI-native videocreatie, waarbij hij technologie ontwikkelt die eenvoudige invoer omzet in hoogwaardige, realistische video’s die klaar zijn voor creators. Onder zijn leiding ontwikkelt het bedrijf next-generation generatieve videomodellen die zijn ontworpen voor marketingteams, onderwijsinstellingen en productverhalenvertellers die snelle, hoogwaardige content nodig hebben zonder studio-overhead.

U bent een van de drijvende krachten achter enkele van de meest invloedrijke computer-visionprojecten – van OpenCV tot Itseez3D. Wat inspireerde u om CraftStory op te richten, en hoe heeft uw vorige werk de visie voor lange, studio-kwaliteit AI-video gevormd?

Voordat CraftStory, werkten mijn team en ik aan Avatar SDK – een tool die realistische avatars maakt van selfies voor VR/AR, gaming, marketing en andere toepassingen. We hadden al diep nagedacht over digitale mensen gedurende enkele jaren. Toen, ongeveer twee jaar geleden, realiseerden we ons dat GenAI-technologie voor videogeneratie goed genoeg was om een geheel nieuwe golf van toepassingen te ontgrendelen, en we zijn er meteen in gesprongen.

CraftStory lanceerde met de makers van OpenCV in het hart van het bedrijf. Hoe heeft die gedeelde achtergrond de technische richting en onderzoeksdoelstellingen voor Model 2.0 beïnvloed?

We leven in een periode van buitengewone vooruitgang in computer-vision en machine learning. Het voelt alsof alle doorbraken van de vroege quantummechanica – oorspronkelijk verspreid over decennia – zijn samengeperst in slechts een paar jaar. Beeldbegrip en -generatie zijn verder ontwikkeld dan waar we mee werkten toen we OpenCV ontwikkelden. Door deze evolutie te observeren gedurende meer dan een decennium, voorspellingen te doen en te zien of ze slagen of falen, hebben we een diepe intuïtie voor waar de technologie en de markt naartoe gaan. Die perspectief heeft onze onderzoeksdoelstellingen en de roadmap voor Model 2.0 rechtstreeks gevormd.

Model 2.0 lost iets op wat veel videomodellen moeilijk vinden: identiteit, emotie en consistentie behouden over minuten van beeldmateriaal. Wat waren de doorbraken die dit mogelijk maakten?

Identiteit en consistentie zijn onze prioriteiten vanaf dag één. Verschillende architectonische keuzes in het netwerk waren specifiek ontworpen om deze uitdagingen aan te pakken. Maar even belangrijk was het fijn afstellen van het model op data die we zelf hebben verzameld. We hebben professionele acteurs gefilmd in een gecontroleerde studio-omgeving met onze eigen hoge frame-rate camera’s om ervoor te zorgen dat elke frame – inclusief snelle bewegingen van het lichaam, handen en vingers – scherp bleef. Dat niveau van hoogwaardige, bewegingsrijke data maakte een significante verschil.

Uw team heeft een parallelle diffusiepijplijn geïntroduceerd om lange sequenties coherent te houden. Wat was het probleem dat dit moest oplossen, en waarom was het essentieel voor multi-minuut menselijke video?

U heeft een geavanceerd lip-sync- en gebaar-alignment-systeem gebouwd. Hoe ver zijn we verwijderd van volledig geloofwaardige AI-dialoog, en wat moet er nog verbeterd worden?

De text-to-video-model die u ontwikkelt, belooft lange generatie rechtstreeks van scripts. Wat zijn de technische barrières die u nog moet overwinnen voordat dit mainstream wordt?

Uw team benadert de uitdaging van bewegende-camera-sequenties – zoals wandel-en-praat-shots – op een andere manier dan concurrenten zoals Sora. Hoe pakt u deze uitdaging aan?

Met OpenAI, Google en anderen die de race naar lange vorm video ingaan, wat ziet u als de voorsprong van CraftStory in deze opkomende markt?

Als AI-generatie van menselijke video meer realistisch en schaalbaar wordt, wat voor ethische of creatieve waarborgen denkt u dat er moeten zijn om deze technologie te verspreiden?

Elke krachtige technologie is een tweesnijdend zwaard, en het is cruciaal om de specifieke risico’s te begrijpen die ermee gepaard gaan. In AI-generatie van menselijke video is impersonatie het meest significante – hoewel niet het enige – probleem. We hebben tijd besteed aan het analyseren van deze risico’s en hebben waarborgen geïmplementeerd die bepaalde schadelijke gebruikscases voorkomen. Als de technologie meer realistisch en schaalbaar wordt, is het essentieel om sterke ethische en creatieve bescherming te behouden voor de hele industrie. Thank you voor het geweldige interview, lezers die meer willen leren, moeten CraftStory bezoeken.

Antoine is een visionaire leider en oprichtend partner van Unite.AI, gedreven door een onwankelbare passie voor het vormgeven en promoten van de toekomst van AI en robotica. Een seriële ondernemer, hij gelooft dat AI net zo disruptief voor de samenleving zal zijn als elektriciteit, en wordt vaak betrapt op het enthousiast praten over het potentieel van disruptieve technologieën en AGI. Als een futurist, is hij toegewijd aan het onderzoeken van hoe deze innovaties onze wereld zullen vormgeven. Bovendien is hij de oprichter van Securities.io, een platform dat zich richt op investeren in cutting-edge technologieën die de toekomst opnieuw definiëren en hele sectoren herschappen.