Entretiens

Victor Erukhimov, PDG de CraftStory – Série d’entretiens

mm

Victor Erukhimov, PDG de CraftStory, est un ingénieur de recherche en vision par ordinateur devenu entrepreneur qui a contribué à façonner l’évolution précoce d’OpenCV, puis a co-fondé Itseez et l’a guidé d’une startup technique à l’une des principales équipes de recherche en vision par ordinateur au monde avant son acquisition par Intel. Au cours de plus d’une décennie, il est passé de directeur technique à PDG, puis à président, et a poursuivi cette trajectoire chez Itseez3D, où il a dirigé le développement de technologies de numérisation 3D mobile avancée et de génération d’avatars tout en servant de longue date en tant que membre du conseil d’administration d’OpenCV.org.

À CraftStory, il se concentre désormais sur la création de vidéos natives en IA, en construisant des technologies qui transforment des entrées simples en vidéos créatives et réalistes. Sous sa direction, l’entreprise développe des modèles de vidéos génératives de nouvelle génération conçus pour les équipes marketing, les éducateurs et les conteurs de produits qui ont besoin de contenu de haute qualité et rapide sans les coûts d’un studio.

Vous avez été une force motrice derrière certains des projets de vision par ordinateur les plus influents – d’OpenCV à Itseez3D. Qu’est-ce qui vous a inspiré à fonder CraftStory, et comment votre travail passé a-t-il façonné la vision pour les vidéos à longue durée et de qualité studio en IA ?

Avant CraftStory, mon équipe et moi travaillions sur Avatar SDK – un outil qui crée des avatars réalistes à partir de selfies pour la réalité virtuelle, les jeux, le marketing et d’autres applications. Nous réfléchissions déjà profondément aux humains numériques depuis plusieurs années. Il y a environ deux ans, nous avons réalisé que la technologie GenAI pour la génération de vidéos était suffisamment bonne pour débloquer une nouvelle vague d’applications, et nous nous sommes immédiatement lancés dans ce projet.

CraftStory a été lancé avec les créateurs d’OpenCV à son cœur. Comment cet héritage partagé a-t-il influencé la direction technique et les priorités de recherche pour le Modèle 2.0 ?

Nous vivons une période de progrès extraordinaire en vision par ordinateur et en apprentissage automatique. Cela ressemble à tous les progrès de la mécanique quantique précoce – à l’origine répartis sur des décennies – qui ont été compressés en quelques années seulement. La compréhension et la génération d’images ont progressé bien au-delà de ce avec quoi nous travaillions lors du développement d’OpenCV. Ayant observé cette évolution pendant plus d’une décennie, en faisant des prédictions et en voyant leur réussite ou leur échec, nous avons acquis une intuition profonde de la direction que prend la technologie et le marché. Cette perspective a directement façonné nos priorités de recherche et la feuille de route pour le Modèle 2.0.

Le Modèle 2.0 aborde quelque chose avec lequel de nombreux modèles de vidéos luttent : maintenir l’identité, l’émotion et la cohérence sur des minutes de séquences. Quels progrès ont rendu cela possible ?

L’identité et la cohérence ont été nos priorités dès le début. Plusieurs choix architecturaux dans le réseau ont été spécifiquement conçus pour relever ces défis. Mais tout aussi important a été l’affinement du modèle sur les données que nous avons collectées nous-mêmes. Nous avons filmé des acteurs professionnels dans un environnement de studio contrôlé en utilisant nos propres caméras à haute fréquence d’images pour nous assurer que chaque trame – y compris les mouvements rapides du corps, des mains et des doigts – reste nette. Ce niveau de données de haute qualité et riches en mouvement a fait une différence significative.

Votre équipe a introduit un pipeline de diffusion parallèle pour maintenir la cohérence des longues séquences. Quel problème était-ce censé résoudre, et pourquoi était-il essentiel pour les vidéos humaines à plusieurs minutes ?

Exécuter un seul processus de diffusion sur une longue séquence de trames est extrêmement difficile – cela coûte cher en termes de calcul et nécessite une énorme quantité de données d’entraînement. Notre pipeline de diffusion parallèle résout ce problème en exécutant plusieurs processus de diffusion sur différents segments temporels simultanément. La principale percée a été de déterminer comment relier ces segments pour qu’ils restent cohérents et constants sur de longues durées. Le Modèle 2.0 peut désormais générer des vidéos jusqu’à cinq minutes, mais cela est principalement une contrainte technique. Avec plus de travail d’ingénierie, nous pouvons étendre cela à des vidéos de longueurs essentiellement arbitraires.

CraftStory met l’accent sur le réalisme dans le mouvement et l’expression. Quels ont été les défis les plus difficiles pour préserver les dynamiques naturelles de la main, du corps et du visage à des durées plus longues ?

Le plus grand défi est de générer des mouvements réalistes du corps et du visage de manière constante sur de longues durées. De petits détails – comme les mouvements subtils de la main, les changements de posture ou les micro-expressions – ont tendance à se dégrader dans la plupart des modèles à mesure que la séquence se prolonge. Nous avons résolu ce problème en formant notre modèle sur notre propre ensemble de données étendu et de haute qualité, capturé avec des acteurs professionnels et des caméras à haute fréquence d’images. Ce niveau de séquences contrôlées et riches en mouvement a donné au modèle le signal dont il avait besoin pour préserver les dynamiques naturelles sur toute la performance, et pas seulement dans des moments isolés.

De nombreuses entreprises sont coincées entre des tournages en direct coûteux et des extraits d’IA courts et peu fiables. Où voyez-vous la plus grande demande commerciale émerger pour les vidéos à plusieurs minutes et axées sur l’humain ?

Les vidéos générées par IA sont de plus en plus indiscernables des séquences filmées avec une caméra, tout en coûtant une fraction du coût de production traditionnel. La plus grande demande que nous voyons actuellement est dans le contenu d’entreprise – en particulier dans le développement et la formation – où les entreprises ont besoin de grandes quantités de vidéos instructives claires et axées sur l’humain qui peuvent être mises à jour instantanément. Les présentateurs d’IA à plusieurs minutes et constants sont un choix parfait pour cela.

Nous voyons également un intérêt croissant pour les cas d’utilisation marketing tels que les présentations de produits, les didacticiels et les explications. À mesure que la technologie mûrit, les vidéos à longue durée en IA remplaceront de plus en plus les tournages en direct coûteux et les extraits courts et peu fiables que la plupart des outils peuvent produire aujourd’hui.

Vous avez construit un système avancé de synchronisation labiale et d’alignement des gestes. À quel point sommes-nous proches d’un dialogue d’IA entièrement crédible, et qu’est-ce qui nécessite encore des améliorations ?

Je pense que nous sommes très proches. Une autre itération de la technologie – en particulier pour la rendre plus rapide et générer des vidéos natives 1080p – nous amènera à un dialogue d’IA entièrement crédible.

Le modèle texte-vidéo que vous développez promet une génération à longue durée directement à partir de scripts. Quels obstacles techniques êtes-vous encore en train de surmonter avant que cela ne devienne mainstream ?

Il n’y a pas d’obstacles fondamentaux – juste beaucoup de travail d’ingénierie à venir. La vidéo-vidéo était le fruit le plus facile à cueillir, nous l’avons donc mise sur le marché en premier. Maintenant, nous nous concentrons sur le modèle image-vidéo qui prend un script et une image de référence comme entrée. Nous faisons des progrès rapides et espérons le publier dans les semaines à venir.

Les séquences de caméra mobile – comme les prises de vue marche et conversation – constituent une étape majeure vers l’automatisation cinématique. Comment votre équipe aborde-t-elle ce défi par rapport à des concurrents comme Sora ?

Nous nous concentrons sur la génération de longues séquences de marche et conversation – des prises de plusieurs minutes qui semblent cinématiques et naturelles. Notre objectif est de donner aux clients la capacité de créer des vidéos dans le style de la célèbre campagne « Keep Walking » de Johnnie Walker, mais sans une équipe de production complète. Nous faisons des progrès rapides, et très bientôt nous serons en mesure de produire des séquences de marche et conversation qui durent plusieurs minutes avec des personnages, des mouvements et des dynamiques de caméra constants.

Avec OpenAI, Google et d’autres qui se précipitent dans la vidéo à longue durée, quel est l’avantage de CraftStory sur ce marché émergent ?

Le marché de la vidéo en IA est incroyablement compétitif, et nous attendons pleinement que les grands acteurs rattrapent leur retard technologique. Mais notre avantage est la concentration et la vitesse. Nous avons une feuille de route très ambitieuse, et nous sommes une équipe agile qui peut bouger rapidement et itérer rapidement. Cette agilité – et notre concentration sur les vidéos à longue durée et axées sur l’humain – est ce qui distingue CraftStory.

À mesure que les vidéos humaines générées par IA deviennent plus réalistes et plus évolutives, quels garde-fous éthiques ou créatifs pensez-vous devraient être en place à mesure que cette technologie se répand ?

Toute technologie puissante est un double tranchant, et il est crucial de comprendre les risques spécifiques qui l’accompagnent. Dans les vidéos humaines générées par IA, l’usurpation d’identité est la préoccupation la plus significative – bien que non la seule. Nous avons passé du temps à analyser ces risques et avons mis en place des garde-fous pour empêcher certains cas d’utilisation nocifs. À mesure que la technologie devient plus réaliste et plus évolutivité, maintenir de solides protections éthiques et créatives sera essentiel pour l’ensemble de l’industrie.

Merci pour cette grande interview, les lecteurs qui souhaitent en savoir plus peuvent visiter CraftStory.

Antoine est un leader visionnaire et associé fondateur de Unite.AI, animé par une passion inébranlable pour façonner et promouvoir l'avenir de l'IA et de la robotique. Un entrepreneur en série, il croit que l'IA sera aussi perturbatrice pour la société que l'électricité, et on le surprend souvent en train de vanter le potentiel des technologies perturbatrices et de l'AGI.

En tant que futuriste, il se consacre à explorer comment ces innovations vont façonner notre monde. En outre, il est le fondateur de Securities.io, une plateforme axée sur l'investissement dans les technologies de pointe qui redéfinissent l'avenir et remodelent des secteurs entiers.