Connect with us

Victor Erukhimov, CEO da CraftStory – Série de Entrevistas

Entrevistas

Victor Erukhimov, CEO da CraftStory – Série de Entrevistas

mm

Victor Erukhimov, CEO da CraftStory, é um engenheiro de pesquisa e desenvolvimento de visão computacional que se tornou empreendedor e ajudou a moldar a evolução inicial do OpenCV, mais tarde co-fundou a Itseez e a guiou de uma startup técnica para uma das principais equipes de pesquisa de visão computacional do mundo antes de sua aquisição pela Intel. Ao longo de mais de uma década, ele progrediu de CTO para CEO e, em seguida, para Presidente, e continuou essa trajetória na Itseez3D, onde liderou o desenvolvimento de tecnologias avançadas de digitalização 3D móvel e geração de avatares, enquanto também atuava como membro do conselho da OpenCV.org por muito tempo.

Na CraftStory, ele agora se concentra na criação de vídeo nativo em IA, construindo tecnologia que transforma entradas simples em vídeos de alta realismo, prontos para criadores. Sob sua liderança, a empresa está desenvolvendo modelos de vídeo gerativos de próxima geração projetados para equipes de marketing, educadores e contadores de histórias de produtos que precisam de conteúdo de alta qualidade e rápido, sem a necessidade de estúdio.

Você foi uma força motriz por trás de alguns dos projetos de visão computacional mais influentes – desde o OpenCV até a Itseez3D. O que o inspirou a fundar a CraftStory e como seu trabalho anterior moldou a visão para vídeo em AI de longa duração e qualidade de estúdio?

Antes da CraftStory, minha equipe e eu estávamos trabalhando no Avatar SDK – uma ferramenta que cria avatares realistas a partir de selfies para VR/AR, jogos, marketing e outras aplicações. Já estávamos pensando profundamente sobre humanos digitais há vários anos. Então, há cerca de dois anos, percebemos que a tecnologia de GenAI para geração de vídeo estava se tornando boa o suficiente para desbloquear uma nova onda de aplicações, e mergulhamos de cabeça.

A CraftStory foi lançada com os criadores do OpenCV em seu núcleo. Como esse histórico compartilhado influenciou a direção técnica e as prioridades de pesquisa para o Modelo 2.0?

Estamos vivendo em um período de progresso extraordinário em visão computacional e aprendizado de máquina. Parece que todos os avanços da mecânica quântica inicial – originalmente distribuídos por décadas – foram comprimidos em apenas alguns anos. A compreensão e geração de imagens avançaram muito além do que estávamos trabalhando quando desenvolvíamos o OpenCV. Tendo observado essa evolução por mais de uma década, fazendo previsões e vendo-as ter sucesso ou falhar, ganhamos uma intuição profunda sobre para onde a tecnologia e o mercado estão indo. Essa perspectiva moldou diretamente nossas prioridades de pesquisa e o roadmap para o Modelo 2.0.

O Modelo 2.0 aborda algo com que muitos modelos de vídeo lutam: manter identidade, emoção e consistência ao longo de minutos de footage. Quais avanços tornaram isso possível?

Identidade e consistência têm sido nossas prioridades desde o início. Várias escolhas arquitetônicas na rede foram projetadas especificamente para lidar com esses desafios. Mas igualmente importante foi o ajuste fino do modelo com dados que coletamos nós mesmos. Filmamos atores profissionais em um ambiente de estúdio controlado usando nossas próprias câmeras de alta taxa de quadros para garantir que cada quadro – incluindo movimentos rápidos do corpo, mãos e dedos – permanecesse nítido. Esse nível de dados de alta qualidade e ricos em movimento fez uma diferença significativa.

Sua equipe introduziu um pipeline de difusão paralelizado para manter sequências longas coerentes. Qual foi o problema que isso foi projetado para resolver, e por que foi essencial para vídeo humano de multi-minutos?

Executar um único processo de difusão sobre uma sequência longa de quadros é extremamente desafiador – é computacionalmente caro e exige uma quantidade massiva de dados de treinamento. Nosso pipeline de difusão paralelizado resolve isso executando vários processos de difusão em segmentos de tempo diferentes simultaneamente. O avanço chave foi descobrir como conectar esses segmentos para que permaneçam coerentes e consistentes ao longo de durações mais longas. O Modelo 2.0 agora pode gerar vídeos de até cinco minutos, mas isso é principalmente uma restrição técnica. Com mais trabalho de engenharia, podemos estender isso para vídeos de comprimento essencialmente arbitrário.

A CraftStory enfatiza realismo tanto em movimento quanto em expressão. Quais foram os desafios mais difíceis em preservar dinâmicas naturais de mãos, corpo e face em durações mais longas?

O maior desafio é gerar movimento corporal e facial realista consistentemente ao longo de durações mais longas. Detalhes pequenos – como movimento sutil de mãos, postura cambiante ou micro-expressões – tendem a se deteriorar em muitos modelos à medida que a sequência se torna mais longa. Resolvemos isso treinando em nosso próprio conjunto de dados extenso e de alta qualidade, capturado com atores profissionais e câmeras de alta taxa de quadros. Esse nível de footage controlado e rico em movimento deu ao modelo o sinal que precisava para preservar dinâmicas naturais ao longo de toda a performance, não apenas em momentos isolados.

Muitas empresas estão presas entre filmagens ao vivo caras e clipes de IA curtos e não confiáveis. Onde você vê a maior demanda comercial emergindo para vídeo humano de multi-minutos?

Vídeos gerados por IA estão se tornando rapidamente indistinguíveis de footage filmado com câmera, enquanto custam uma fração do que a produção tradicional. A maior demanda inicial que estamos vendo é em conteúdo corporativo – especialmente Aprendizado e Desenvolvimento – onde as empresas precisam de grandes volumes de vídeos instrucionais claros e centrados em humanos que possam ser atualizados instantaneamente. Apresentadores de IA de multi-minutos e consistentes são um ajuste perfeito para isso.

Também estamos vendo um interesse crescente em casos de uso de marketing, como apresentações de produtos, tutoriais e explicações. À medida que a tecnologia amadurece, o vídeo de longa duração em IA substituirá cada vez mais tanto as filmagens ao vivo caras quanto os clipes curtos e não confiáveis que a maioria das ferramentas pode produzir hoje.

Você construiu um sistema avançado de sincronização labial e alinhamento de gestos. Quão longe estamos de diálogo de IA completamente convincente, e o que ainda precisa de melhoria?

Uma mais iteração da tecnologia – especialmente para torná-la mais rápida e gerar nativamente 1080p – nos levará a diálogos de IA completamente convincentes.

O modelo de texto-para-vídeo que você está desenvolvendo promete geração de longa duração diretamente a partir de scripts. Quais são as barreiras técnicas que você ainda está trabalhando para superar antes que isso se torne mainstream?

Não há barreiras fundamentais – apenas muito trabalho de engenharia à frente. O vídeo-para-vídeo foi o fruto mais fácil, então trouxemos isso para o mercado primeiro. Agora estamos focados no modelo de imagem-para-vídeo que leva um script e uma imagem de referência como entrada. Estamos fazendo um progresso rápido e esperamos lançá-lo dentro de algumas semanas.

Sequências de câmera em movimento – como tomadas de caminhar e falar – são um grande passo em direção à automação cinematográfica. Como sua equipe está abordando esse desafio em comparação com concorrentes como a Sora?

Estamos focados em gerar longas sequências de caminhar e falar – tomadas de multi-minutos que se sentem cinematográficas e naturais. Nosso objetivo é dar aos clientes a capacidade de criar vídeos no estilo da famosa campanha “Keep Walking” da Johnnie Walker, mas sem uma equipe de produção completa. Estamos fazendo um progresso rápido, e muito em breve seremos capazes de produzir sequências de caminhar e falar que duram vários minutos com personagens consistentes, movimento e dinâmica de câmera.

Com a OpenAI, o Google e outros correndo para o vídeo de longa duração, o que você vê como a vantagem da CraftStory nesse mercado emergente?

O mercado de vídeo em IA é incrivelmente competitivo, e esperamos que os grandes jogadores catchem tecnologicamente. Mas nossa vantagem é o foco e a velocidade. Temos uma estrada muito ambiciosa, e somos uma equipe enxuta que pode se mover rapidamente e iterar com rapidez. Essa agilidade – e nosso foco em vídeo humano de longa duração – é o que distingue a CraftStory.

À medida que o vídeo humano gerado por IA se torna mais realista e escalável, quais salvaguardas éticas ou criativas você acredita que devem estar em vigor à medida que essa tecnologia se espalha?

Toda tecnologia poderosa é uma espada de dois gumes, e é crucial entender os riscos específicos que vêm com trazê-la para o mercado. No vídeo humano gerado por IA, a impersonação é a preocupação mais significativa – embora não a única. Passamos tempo analisando esses riscos e implementamos salvaguardas que impedem certos casos de uso prejudiciais. À medida que a tecnologia se torna mais realista e escalável, manter fortes proteções éticas e criativas será essencial para a indústria como um todo.

Obrigado pela grande entrevista, leitores que desejam aprender mais devem visitar CraftStory.

Antoine é um líder visionário e sócio-fundador da Unite.AI, impulsionado por uma paixão inabalável em moldar e promover o futuro da IA e da robótica. Um empreendedor serial, ele acredita que a IA será tão disruptiva para a sociedade quanto a eletricidade, e é frequentemente pego falando sobre o potencial das tecnologias disruptivas e da AGI. Como um futurista, ele está dedicado a explorar como essas inovações moldarão nosso mundo. Além disso, ele é o fundador da Securities.io, uma plataforma focada em investir em tecnologias de ponta que estão redefinindo o futuro e remodelando setores inteiros.