人工智能

OmniHuman-1：字节跳动的人工智能可将一张照片变成会动会说话的人

发布时间 2025 年 2 月 10 日

亚历克斯麦克法兰

想象一下，只需拍摄一个人的照片，几秒钟内就能看到他们说话、做手势，甚至表演——无需录制真正的视频。这就是字节跳动的 OmniHuman-1最近走红的人工智能模型通过生成高度逼真的视频为静止图像注入了生命，视频中包含同步的唇部动作、全身手势和富有表现力的面部动画，所有这些都由音频片段驱动。

不像传统深造技术OmniHuman-1 主要专注于视频中的换脸，它可以将整个人体从头到脚变成动画。无论是政治家发表演讲、栩栩如生的历史人物，还是 AI 生成的虚拟人物演唱歌曲，这种模型都让我们所有人都对视频创作进行了深入思考。这项创新带来了一系列影响——既令人兴奋又令人担忧。

是什么让OmniHuman-1脱颖而出？

OmniHuman-1 确实在真实性和功能性方面实现了巨大的飞跃，这正是它如此受欢迎的原因。

原因如下：

不仅仅是说话的人：大多数深度伪造和 AI 生成的视频一直局限于面部动画，经常产生僵硬或不自然的动作。OmniHuman-1 可以制作整个身体动画，捕捉自然的手势、姿势，甚至与物体的互动。
令人难以置信的口型同步和微妙的情感： 它并不是让嘴巴随意移动，而是让人工智能确保嘴唇动作、面部表情和肢体语言与输入的音频相匹配，从而使结果栩栩如生。
适应不同的图像风格： 无论是高分辨率肖像、低质量快照、甚至是风格化的插图，OmniHuman-1 都能智能地适应，无论输入质量如何，都能创建流畅、可信的动作。

这种精度水平得益于字节跳动拥有的 18,700 小时人体视频素材海量数据集，以及能够学习复杂人体动作的先进扩散变压器模型。结果是人工智能生成的视频与真实素材几乎难以区分。这是迄今为止我见过的最好的视频。

背后的技术（简明扼要）

看看官方文件，OmniHuman-1 是一款扩散变压器模型这是一种先进的 AI 框架，它通过逐帧预测和优化运动模式来生成动作。这种方法可确保流畅的过渡和逼真的身体动态，这是超越传统深度伪造模型的一大进步。

字节跳动使用 1 小时的人类视频片段数据集训练 OmniHuman-18,700，使模型能够理解各种动作、面部表情和手势。通过让人工智能接触到无与伦比的各种现实生活动作，它增强了生成内容的自然感。

值得了解的一项关键创新是其“全条件”训练策略，在训练过程中同时使用多种输入信号（例如音频片段、文本提示和姿势参考）。这种方法可以帮助人工智能更准确地预测动作，即使在涉及手势、情绪表达和不同摄像机角度的复杂场景中也是如此。

专栏	OmniHuman-1 优势
运动生成	使用扩散变压器模型实现无缝、逼真的运动
训练数据	18,700 小时视频，确保高保真
多条件学习	集成音频、文本和姿势输入，实现精确同步
全身动画	捕捉手势、身体姿势和面部表情
适应性	适用于各种图像风格和角度

伦理与实际问题

OmniHuman-1 在 AI 生成视频领域树立了新标杆，但同时也引发了重大的道德和安全问题：

Deepfake 的风险： 仅凭一张图片就能制作出高度逼真的视频，这为虚假信息、身份盗窃和数字冒充打开了大门。这可能会影响新闻业、政治和公众对媒体的信任。
潜在的滥用： 人工智能欺骗技术可能被用于恶意目的，包括政治深度伪造、金融欺诈和未经同意的人工智能生成内容。这使得监管和水印成为关键问题。
字节跳动的责任： 目前，OmniHuman-1 尚未向公众开放，可能是出于道德方面的考虑。如果开放，字节跳动将需要实施强有力的保护措施，例如数字水印、内容真实性跟踪，以及可能的使用限制，以防止滥用。
监管挑战： 政府和技术组织正在努力解决如何监管人工智能生成的媒体的问题。欧盟人工智能法案美国的深度伪造立法提案凸显了监督的迫切必要性。
检测与生成的军备竞赛： 随着 OmniHuman-1 等 AI 模型的改进，检测系统也必须不断改进。Google 和 OpenAI 等公司正在开发 AI 检测工具，但跟上这些发展速度惊人的 AI 能力仍然是一项挑战。

人工智能生成的人类的未来将会如何？

现在，人工智能生成人类的进程将非常迅速，OmniHuman-1 就是其中的佼佼者。该模型最直接的应用之一可能是将其集成到 TikTok 和开封，因为字节跳动是这些产品的所有者。这可能会让用户创建超现实的虚拟形象，这些虚拟形象只需极少的输入就能说话、唱歌或执行动作。如果实施，它可以重新定义用户生成的内容，让有影响力的人、企业和日常用户能够毫不费力地制作引人注目的人工智能驱动视频。

除了社交媒体之外，OmniHuman-1 对以下领域也有重要影响：好莱坞和电影、游戏和虚拟影响者。娱乐行业已经在探索人工智能生成的角色，而 OmniHuman-1 提供逼真表演的能力确实有助于推动这一进程。

从地缘政治的角度来看，字节跳动的进步再次引发了中国与 OpenAI 和谷歌等美国科技巨头之间日益激烈的人工智能竞争。由于中国在人工智能研究方面投入了大量资金，OmniHuman-1 对生成媒体技术提出了严峻挑战。随着字节跳动继续完善这一模式，它可能为更广泛的人工智能领导地位竞争奠定基础，影响全球人工智能视频工具的开发、监管和采用方式。