Entrevistas
Victor Erukhimov, CEO de CraftStory – Serie de entrevistas

Victor Erukhimov, CEO de CraftStory, es un ingeniero de investigación y desarrollo de visión por computadora convertido en empresario que ayudó a dar forma a la evolución temprana de OpenCV, y más tarde cofundó Itseez y la guió desde una startup técnica hasta convertirla en uno de los equipos de investigación de visión por computadora más destacados del mundo antes de su adquisición por Intel. A lo largo de más de una década, pasó de ser CTO a CEO y continuó esa trayectoria en Itseez3D, donde lideró el desarrollo de tecnologías de escaneo 3D y generación de avatares móviles avanzadas, mientras también servía como miembro de la junta de OpenCV.org durante mucho tiempo.
En CraftStory, ahora se enfoca en la creación de video nativa de IA, construyendo tecnología que transforma entradas simples en videos muy realistas y listos para creadores. Bajo su liderazgo, la empresa está desarrollando modelos de video generativos de próxima generación diseñados para equipos de marketing, educadores y narradores de productos que necesitan contenido de alta calidad y rápido sin el sobrecoste de un estudio.
Ha sido una fuerza impulsora detrás de algunos de los proyectos de visión por computadora más influyentes, desde OpenCV hasta Itseez3D. ¿Qué lo inspiró a fundar CraftStory, y cómo su trabajo anterior dio forma a la visión para video de IA de estudio de larga duración?
Antes de CraftStory, mi equipo y yo estábamos trabajando en Avatar SDK, una herramienta que crea avatares realistas a partir de selfies para VR/AR, juegos, marketing y otras aplicaciones. Ya habíamos estado pensando profundamente en humanos digitales durante varios años. Luego, hace unos dos años, nos dimos cuenta de que la tecnología GenAI para la generación de video estaba mejorando lo suficiente como para desbloquear una nueva ola de aplicaciones, y nos sumergimos de inmediato.
CraftStory se lanzó con los creadores de OpenCV en su núcleo. ¿Cómo influyó ese trasfondo compartido en la dirección técnica y las prioridades de investigación para el Modelo 2.0?
Estamos viviendo en un período de progreso extraordinario en visión por computadora y aprendizaje automático. Parece que todos los avances de la mecánica cuántica temprana, originalmente extendidos a lo largo de décadas, se han comprimido en solo unos pocos años. La comprensión y generación de imágenes han avanzado mucho más allá de lo que estábamos trabajando cuando desarrollábamos OpenCV. Al haber observado esta evolución durante más de una década, haciendo predicciones y viendo cómo tienen éxito o fracasan, hemos ganado una intuición profunda sobre hacia dónde se dirige la tecnología y el mercado. Esa perspectiva dio forma directamente a nuestras prioridades de investigación y a la hoja de ruta para el Modelo 2.0.
El Modelo 2.0 aborda algo con lo que muchos modelos de video luchan: mantener la identidad, la emoción y la coherencia a lo largo de minutos de metraje. ¿Qué avances hicieron posible esto?
La identidad y la coherencia han sido nuestras prioridades desde el primer día. Varias elecciones arquitectónicas en la red se diseñaron específicamente para abordar estos desafíos. Pero igualmente importante fue afinar el modelo con datos que recopilamos nosotros mismos. Filmamos a actores profesionales en un entorno de estudio controlado utilizando nuestras propias cámaras de alta velocidad para asegurarnos de que cada cuadro, incluidos los movimientos rápidos del cuerpo, las manos y los dedos, permaneciera nítido. Ese nivel de datos de alta calidad y ricos en movimiento hizo una gran diferencia.
Su equipo introdujo una tubería de difusión paralela para mantener secuencias largas coherentes. ¿Qué problema estaba diseñado para resolver, y por qué era esencial para video humano de varios minutos?
Ejecutar un solo proceso de difusión sobre una secuencia larga de cuadros es extremadamente desafiante, es costoso en términos computacionales y exige una cantidad masiva de datos de entrenamiento. Nuestra tubería de difusión paralela resuelve esto ejecutando múltiples procesos de difusión en segmentos de tiempo diferentes simultáneamente. El avance clave fue descubrir cómo conectar estos segmentos para que permanezcan coherentes y consistentes durante largas duraciones. El Modelo 2.0 ahora puede generar videos de hasta cinco minutos, pero eso es principalmente una limitación técnica. Con más trabajo de ingeniería, podemos extender esto a videos de longitud esencialmente arbitraria.
CraftStory enfatiza el realismo en movimiento y expresión. ¿Cuáles fueron los desafíos más difíciles para preservar la dinámica natural de las manos, el cuerpo y la cara a duraciones más largas?
El mayor desafío es generar movimientos corporales y faciales realistas consistentemente a lo largo de duraciones más largas. Detalles pequeños, como movimientos sutiles de la mano, cambios de postura o microexpresiones, tienden a descomponerse en la mayoría de los modelos a medida que la secuencia se alarga. Resolvimos esto entrenando en nuestro propio conjunto de datos extenso y de alta calidad, capturado con actores profesionales y cámaras de alta velocidad. Ese nivel de metraje controlado y rico en movimiento dio al modelo la señal que necesitaba para preservar la dinámica natural en todo el desempeño, no solo en momentos aislados.
Muchas empresas están atrapadas entre rodajes en vivo costosos y clips de IA cortos y poco fiables. ¿Dónde ve el mayor demanda comercial emergente para video humano de varios minutos?
Los videos generados por IA están volviéndose rápidamente indistinguibles de los rodados con cámara, mientras cuestan una fracción de la producción tradicional. La mayor demanda temprana que estamos viendo es en contenido corporativo, especialmente en Aprendizaje y Desarrollo, donde las empresas necesitan grandes volúmenes de videos instructivos claros y centrados en humanos que puedan actualizarse al instante. Presentadores de IA coherentes de varios minutos son una excelente opción para eso.
También estamos viendo un interés creciente en casos de uso de marketing como presentaciones de productos, tutoriales y explicaciones. A medida que la tecnología madura, el video de IA de larga duración reemplazará cada vez más tanto los rodajes en vivo costosos como los clips cortos y poco fiables que la mayoría de las herramientas pueden producir hoy en día.
Ha construido un sistema avanzado de sincronización de labios y alineación de gestos. ¿Qué tan lejos estamos de un diálogo de IA completamente creíble, y qué todavía necesita mejora?
Creo que estamos muy cerca. Una iteración más de la tecnología, especialmente para hacerla más rápida y generar video nativo 1080p, nos llevará a un diálogo de IA completamente creíble.
El modelo de texto a video que está desarrollando promete generación de larga duración directamente desde guiones. ¿Qué barreras técnicas todavía está trabajando para superar antes de que eso se vuelva mainstream?
No hay barreras fundamentales, solo hay mucho trabajo de ingeniería por delante. El video de video a video fue la fruta más fácil de alcanzar, así que lo llevamos al mercado primero. Ahora nos enfocamos en el modelo de imagen a video que toma un guion y una imagen de referencia como entrada. Estamos haciendo un progreso rápido y esperamos lanzarlo dentro de las próximas semanas.
Secuencias de cámara en movimiento, como tomas de caminata y conversación, son un gran paso hacia la automatización cinematográfica. ¿Cómo está abordando su equipo este desafío en comparación con competidores como Sora?
Nos enfocamos en generar largas secuencias de caminata y conversación, tomas de varios minutos que se sienten cinematográficas y naturales. Nuestro objetivo es dar a los clientes la capacidad de crear videos al estilo de la famosa campaña “Keep Walking” de Johnnie Walker, pero sin un equipo de producción completo. Estamos haciendo un progreso rápido, y muy pronto podremos producir secuencias de caminata y conversación que corren durante varios minutos con personajes, movimiento y dinámica de cámara consistentes.
Con OpenAI, Google y otros compitiendo en video de larga duración, ¿qué ve como la ventaja de CraftStory en este mercado emergente?
El mercado de video de IA es increíblemente competitivo, y esperamos plenamente que los grandes jugadores alcancen tecnológicamente. Pero nuestra ventaja es el enfoque y la velocidad. Tenemos una hoja de ruta muy ambiciosa, y somos un equipo ágil que puede moverse rápido e iterar con rapidez. Esa agilidad, y nuestro enfoque en video humano de larga duración, es lo que distingue a CraftStory.
A medida que el video humano generado por IA se vuelve más realista y escalable, ¿qué salvaguardias éticas o creativas cree que deberían estar en su lugar a medida que esta tecnología se extiende?
Toda tecnología poderosa es una espada de doble filo, y es crucial entender los riesgos específicos que conlleva llevarla al mercado. En el video humano generado por IA, la impersonación es la preocupación más significativa, aunque no la única. Hemos pasado tiempo analizando estos riesgos y hemos implementado salvaguardias que previenen ciertos casos de uso perjudiciales. A medida que la tecnología se vuelve más realista y escalable, mantener fuertes protecciones éticas y creativas será esencial para toda la industria.
Gracias por la gran entrevista, los lectores que deseen aprender más pueden visitar CraftStory.












