Anderson 视角
虚拟试穿新衣服通过AI

一种AI模型现在可以将单张照片和服装图像转换为一个人穿着新装的移动视频,避免了旧的两步系统中常见的故障。
计算机视觉研究中的“虚拟试穿”(VTON)类别是最有资金支持和最多产的研究领域之一,主要是因为可以从每年发表的众多行业/学术合作中看出,这个目标得到了时尚行业的巨大资金支持:

来自论文“Image-Based Virtual Try-On:A Survey”的人体表示类型示例,以及基本图像必须经过的某些过滤和精化阶段,以实现虚拟试穿。来源 来源
有很多变体,例如从人体图像中提取服装,并且在必要时适应更丰满的身材。一些基于图像的系统已经在veesual.ai、wanna.fashion和fashn.ai等平台上实现了商业化。
对于视频,Google Labs的实验性Doppl应用程序尝试了这种功能,于去年夏天推出:
请点击播放如果视频没有自动播放。来自废弃的Google Doppl视频试穿项目的片段。 来源
然而,Doppl在2026年4月关闭,收到了冷淡的反应,现已将用户转移到公司的图像试穿服务:

Google的图像试穿程序,从公司的废弃Doppl平台转移而来。 来源
虽然有一些平台提供视频虚拟试穿,但似乎没有一个与实际商店有关联;它们都是“尖端”的、边缘的(且经常“可疑的”)令牌产品。
虽然研究领域有一些有趣的尝试,但它们传统上是复杂的架构,难以实现低延迟和高质量:
请点击播放如果视频没有自动播放。来自2024年Fashion-VDM项目的“无头”服装转移示例。 来源
事实上,服装和人体的匹配是一个艰巨的挑战,需要在不扭曲服装或人体的同时保持一些有用的演示动作(例如,当人体转身时,准确地显示产品的背面)。
Vanast
韩国的一篇新论文试图通过使用一个新颖的、完全集成的解决方案来解决这个挑战,用于解析服装、人体和运动:
请点击播放如果视频没有自动播放。来自Vanast项目的补充材料网站的示例。 来源
该系统利用一个自定义的数据集,结合了实现该任务所需的三个因素:服装、人体和运动:
点击播放。 来自Vanast项目网站的更多示例。
该系统利用了多种框架,包括Flux、Qwen和ChatGPT,生成了一个能够告知端到端架构的“三元组”数据集:

来自新论文的数据集数据点示例,用于生成和训练。来源 来源 –
该论文题为《Vanast:通过合成三元组监督的虚拟试穿与人体图像动画》,由首尔国立大学的四位研究人员撰写。还有一个带有视频的项目网站。
方法
作者在这项工作中的目标是将三个方面融合在一个单阶段框架中,不仅因为这个过程是离散的,而且因为它可以让各种方面在训练过程中更好地交互和融合,目标是产生更连贯的生成结果:

Vanast将单个人照片、单独的服装图像和运动参考视频结合起来,生成一个人穿着新装的移动序列,姿势指导确保一致的运动,同时在帧之间保持身份和服装细节。
为了实现这一点,该系统采用服装图像、人体照片、运动参考视频和文本提示,生成一个人穿着新装的完整视频序列,按照指定的运动,保持每帧的一致性。
数据集
训练基于人体图像、对应的服装图像和人体运动视频的配对示例,使用之前的架构提取运动,以提供稳定的姿势指导:
由于没有公开的数据集满足项目的要求,数据从在线购物平台中获取,提供了一个多样化服装的视频缓存。然而,任务需要一个人穿着多套服装的视频,这在野外数据中很少见,因此需要创建合成数据:
三个阶段的过程包括从视频中选择合适的候选帧,通过Qwen2.5-VL视觉语言模型(VLM)处理,并创建适当的修复遮罩,以分离受影响的区域:

Vanast管道的概述,其中人体图像、目标服装图像和运动指导视频被编码和处理在一个统一的视频扩散模型中。该系统生成一个动画,保持身份,遵循姿势序列,并应用目标服装,同时合成三元组生成支持训练,双模块设计将动画与服装转移分离,以保持一致性。
在第三个阶段,Qwen再次被用来对图像进行性别分类,而流行的Flux图像扩散框架被用来创建图像中的服装修改:
为了进一步增加姿势和背景的多样性,引入了一个管道来从野外视频中构建训练三元组,使用HumanVid数据集:
同样的过程被用来生成保持身份的人体图像。
架构
引入了一个双模块架构来解决以前方法中慢的收敛和弱的控制平衡问题:
该模型被分为两个模块:人体动画模块(HAM)和服装转移模块(GTM),两个模块共享访问后端,同时以分布式、级联的方式集成特征,以提高条件:
训练通过冻结后端并仅优化HAM和GTM参数来执行,参数的贡献在特征集成期间平衡:
合成三元组数据集的输入被转换为潜在表示,使用WAN的变分自编码器(VAE):
运动感知上下文通过组合人体和姿势信息来构建,而服装特征被单独处理并通过投影到令牌嵌入中对齐:
该模型还被扩展以支持服装插值:
数据和测试
该模型在9,135个视频上进行了训练,长度从三秒到十秒不等,来源于购物中心网站、作者自己的生成数据集和HumanVid数据集:
从这些数据中,建立了两个评估数据集:互联网数据集,包含来自商场的视频和产品图像;以及阿里巴巴的ViViD数据集的官方测试集:
由于ViViD数据缺少面部(见上面的视频示例),面部通过Flux外画添加:
使用的指标包括L1损失、峰值信噪比(PSNR)、结构相似性指数(SSIM)、学习的感知图像补丁相似性(LPIPS)、弗雷切特感知距离(FID)和弗雷切特视频距离(FVD):
测试的系统包括OOTDiffusion、CatVTON、OmniTry和Any2AnyTryon,以及VisualCloze、MOSAIC、UNO和VACE:
对于第二类测试,测试了图像虚拟试穿和动画模型的组合,新工作再次实现了最高分:
作者补充说:
结论
虽然Vanast项目实现了一个离散的端到端解决方案,但论文中缺乏关于训练和推理资源要求的详细信息,表明这可能不是最灵活或最敏捷的解决方案。事实上,这个挑战本身即使在非优化系统中也极其困难,更不用说在需要低延迟和可扩展性/投资回报率的商业部署中:
虚拟试穿是众多“月球计划”式的人工智能目标之一,当前的状态,正如通过各种标题和精心挑选的结果所体现的那样,掩盖了该任务的实际困难,这可能最终会通过比变压器更轻、更先进的技术来解决。
† 仅在美国提供,许多其他地区被地理封锁。
†† 作者提到了“VFID”,但只链接到ViViD论文,该论文不能证明该引用是合理的,至少我在有限的时间内无法追踪到它。我假设他们实际上是指弗雷切特视频距离(FVD),并且他们也没有足够的时间。如有必要,请联系我进行修改。
首次发表于2026年4月8日星期三。












