访谈
CraftStory 首席执行官 Victor Erukhimov – 采访系列

Victor Erukhimov,CraftStory 首席执行官,是一位计算机视觉研发工程师转型的企业家,他曾帮助塑造 OpenCV 的早期发展,并后来联合创立了 Itseez,并将其从技术初创公司发展成为世界领先的计算机视觉研究团队,之后被英特尔收购。在十多年的时间里,他从技术总监晋升到首席执行官,然后到总裁,并继续在 Itseez3D 任职,在那里他领导了高级移动 3D 扫描和头像生成技术的开发,同时也担任 OpenCV.org 的长期董事会成员。
在 CraftStory,他现在专注于 AI 原生视频创作,开发将简单输入转化为高度逼真、创作者准备好的视频的技术。在他的领导下,该公司正在开发下一代适用于营销团队、教育工作者和产品讲故事者的生成视频模型,旨在提供快速、高质量的内容,而无需摄影棚的开支。
您一直是计算机视觉领域最具影响力的项目背后的推动力,从 OpenCV 到 Itseez3D。是什么激发了您创立 CraftStory 的灵感,您过去的工作如何塑造了长篇、studio 质量的 AI 视频的愿景?
在 CraftStory 之前,我的团队和我正在开发 Avatar SDK——一种从自拍中为 VR/AR、游戏、营销和其他应用程序创建逼真头像的工具。我们已经思考了几年关于数字人类的问题。然后,大约两年前,我们意识到 GenAI 视频生成技术已经足够成熟,可以解锁一个全新的应用浪潮,我们立即投入其中。
CraftStory 由 OpenCV 的创始人核心团队推出。这种共享的背景如何影响 Model 2.0 的技术方向和研究优先级?
我们正处于计算机视觉和机器学习领域进展非常迅速的时期。感觉所有早期量子力学的突破——最初跨越了几十年——都被压缩到了仅仅几年内。图像理解和生成已经远远超出了我们在开发 OpenCV 时的水平。通过对这一演变的观察和预测,我们对技术和市场的发展方向有了深刻的理解。这一视角直接塑造了我们的研究优先级和 Model 2.0 的路线图。
Model 2.0 解决了许多视频模型难以应对的挑战:在数分钟的视频中保持身份、情感和一致性。哪些突破使得这一点成为可能?
身份和一致性一直是我们的首要任务。网络中的几项架构选择都是专门为解决这些挑战而设计的。但同样重要的是,我们在自己收集的数据上对模型进行了微调。我们在一个受控的摄影棚环境中使用自己的高帧率相机拍摄专业演员,以确保每一帧——包括身体、手和手指的快速运动——都保持清晰。这种高质量、运动丰富的数据带来了显著的差异。
您的团队引入了并行扩散管道来保持长序列的一致性。这种设计旨在解决什么问题,为什么对于多分钟的人类视频来说这是必不可少的?
在长序列的帧上运行单一扩散过程是极其具有挑战性的——这在计算上非常昂贵,并需要大量的训练数据。我们的并行扩散管道通过同时在不同时间段上运行多个扩散过程来解决这个问题。关键的突破是我们找到了如何连接这些段以保持长时间的一致性。Model 2.0 现在可以生成长达五分钟的视频,但这主要是一个技术限制。通过更多的工程工作,我们可以将其扩展到任意长度的视频。
CraftStory 强调运动和表情的逼真性。保持自然的手、身体和面部动态在更长时间内的最困难挑战是什么?
最大的挑战是生成长时间内一致的身体和面部运动。小细节——如微妙的手势、姿势变化或微表情——往往在序列变长时在大多数模型中会崩溃。我们通过训练自己的高质量数据集来解决这个问题,该数据集由专业演员和高帧率相机捕获。这种受控、运动丰富的素材为模型提供了信号,使其能够在整个表演中保持自然动态,而不仅仅是在孤立的瞬间。
许多公司被困在昂贵的实拍和短暂、不可靠的 AI 片段之间。您认为多分钟、以人类为中心的视频的最大商业需求将从哪里出现?
AI 生成的视频正在迅速变得与摄像机拍摄的视频无法区分,同时成本却只是传统制作的一小部分。我们看到的最大的早期需求是在企业内容中——特别是在学习和发展领域——公司需要大量清晰、以人类为中心的教学视频,可以瞬间更新。多分钟、一致的 AI 主持人非常适合这一需求。
我们还看到人们对营销用例(如产品介绍、教程和解释器)日益感兴趣。随着技术的成熟,长篇 AI 视频将越来越多地取代昂贵的实拍和目前大多数工具可以生成的短暂、不可靠的片段。
您已经开发了先进的唇部同步和手势对齐系统。我们距离完全可信的 AI 对话还有多远,哪些方面仍需要改进?
我认为我们非常接近。技术的下一个迭代——特别是使其更快、能够生成原生 1080p——将使我们达到完全可信的 AI 对话。
您正在开发的文本到视频模型承诺从脚本直接生成长篇内容。哪些技术障碍您仍在努力克服,以使其成为主流?
没有根本性的障碍——只是前方还有大量的工程工作。视频到视频是更容易实现的目标,所以我们首先将其推向市场。现在,我们专注于从脚本和参考图像输入生成视频的图像到视频模型。我们正在快速取得进展,希望在接下来的几周内发布它。
移动相机序列——如行走和对话镜头——是实现电影自动化的重要一步。您的团队如何解决这个挑战,与竞争对手如 Sora 相比如何?
我们专注于生成长时间的行走和对话序列——多分钟的镜头,让人感觉电影化且自然。我们的目标是让客户能够创建类似于约翰尼·沃克著名的“继续行走”活动的视频,但无需完整的制作团队。我们正在迅速取得进展,很快我们将能够产生长达几分钟的行走和对话序列,具有一致的角色、运动和相机动态。
随着 OpenAI、谷歌和其他公司进入长篇视频领域,您认为 CraftStory 在这一新兴市场的优势是什么?
AI 视频市场竞争非常激烈,我们完全预计大公司将在技术上赶上。但我们的优势在于专注和速度。我们有一个非常雄心勃勃的路线图,我们是一个可以快速行动和快速迭代的精干团队。这种敏捷性——以及我们对长篇、以人类为中心的视频的关注——是 CraftStory 与众不同的原因。
随着 AI 生成的人类视频变得更加逼真和可扩展,您认为在这一技术传播时应该建立哪些道德或创造性的保障措施?
每一种强大的技术都是双刃剑,了解将其推向市场所带来的特定风险至关重要。在 AI 生成的人类视频中,冒充是最重要的(尽管不是唯一的)问题。我们已经分析了这些风险,并实施了防止某些有害用例的保障措施。随着技术变得更加逼真和可扩展,整个行业都需要保持强大的道德和创造性保护措施。
感谢这次精彩的采访,希望了解更多的读者请访问 CraftStory。












