人工智能
迈向能够经受住模型版本升级的 LoRA

自从我 最近的报道 业余爱好者混元视频 LoRA(小型、 训练文件 可以将自定义个性注入数十亿参数的文本到视频和图像到视频基础模型中),Civit 社区中可用的相关 LoRA 数量增加了 185%。

尽管没有特别简单或省力的方法来制作浑元视频 LoRA,但 Civit 上的名人和主题 LoRA 目录每天都在增加。 来源:https://civitai.com/
正在努力学习如何为混元视频(HV)制作这些“附加人物”的社区也是 溃疡 承诺释放 图像到视频 混元视频中的(I2V)功能。
对于开源人体图像合成而言,这是一件大事;结合浑源 LoRA 的发展,它可以让用户将人物照片转换成视频,同时不会随着视频的制作而侵蚀他们的身份——目前所有最先进的图像到视频生成器都是如此,包括 Kling、Kaiber 和备受赞誉的 RunwayML:
点击播放。 RunwayML 最先进的 Gen 3 Turbo 模型的图像到视频生成。然而,与所有类似和较小的竞争模型一样,当拍摄对象背对相机时,它无法保持一致的身份,并且起始图像的独特特征变成了“通用扩散女性”。资料来源:https://app.runwayml.com/
通过为相关人物开发自定义 LoRA,人们可以在 HV I2V 工作流程中使用他们的真实照片作为起点。这比将随机数发送到模型的潜在空间并满足于任何语义场景结果要好得多。然后,人们可以使用 LoRA 或多个 LoRA 来保持身份、发型、服装和一代人的其他关键方面的一致性。
这种组合的出现可能代表着自人工智能诞生以来最具划时代意义的转变之一。 稳定扩散,将强大的生成能力移交给开源爱好者,而无需由 内容审查者 在当前流行的一代视频系统中。
在我写这篇文章的时候,浑元图像转视频是一款 未勾选“待办事项” 在 Hunyuan Video GitHub repo 中,业余爱好者社区报道了来自 Hunyuan 开发人员的 Discord 评论(传闻),该开发人员明确表示,由于模型的原因,此功能的发布被推迟到第一季度的某个时候 太不审查“。

混元视频官方功能发布清单。 来源:https://github.com/Tencent/HunyuanVideo?tab=readme-ov-file#-open-source-plan
无论准确与否,repo 开发人员已经基本完成了混元清单的其余部分,因此混元 I2V 似乎最终将问世,无论是经过审查、未经审查还是以某种方式 ‘可解锁’.
但正如我们在上面的列表中看到的,I2V 版本显然是一个完全独立的模型 - 这使得 Civit 和其他地方当前蓬勃发展的 HV LoRA 不太可能与其兼容。
在这个(目前)可以预见的场景中,LoRA 训练框架包括 Musubi 调谐器 和 一个培训师 在支持新模式方面,要么会倒退,要么会重新设定。与此同时,YouTube 人工智能领域最精通技术(和创业精神)的一两位名人将通过 Patreon 勒索他们的解决方案,直到情况赶上来。
升级疲劳
几乎没有人会像 LoRA 或 微调 爱好者,因为生成式人工智能快速而竞争激烈的变化步伐鼓励 Stability.ai、腾讯和黑森林实验室等模型铸造厂以最大可行频率生产更大、(有时)更好的模型。
由于这些新改进的模型至少会有不同的偏见和 权重,并且更常见的是会具有不同的规模和/或架构,这意味着微调社区必须再次拿出他们的数据集并为新版本重复艰苦的训练过程。
因此,Civit 提供了多种稳定扩散 LoRA 版本类型:

升级路径,可在 civit.ai 的搜索过滤选项中查看
由于这些轻量级 LoRA 模型均无法与更高或更低版本的模型互操作,并且其中许多模型依赖于流行的大规模 合并 以及遵循旧模型的微调,社区中很大一部分人倾向于坚持使用“旧”版本,就像客户对 Windows XP 的忠诚度保持不变一样 官方过去支持终止后的几年.
适应变化
之所以想到这个话题,是因为 新文 来自高通人工智能研究公司 (Qualcomm AI Research) 的一项研究声称已经开发出一种方法,可以将现有的 LoRA“升级”到新发布的模型版本。

跨模型版本的 LoRA 转换示例。 来源:https://arxiv.org/pdf/2501.16559
这并不意味着新的方法,题为 LoRA-X,可以在同一类型的所有模型(即文本到图像模型或大型语言模型 [LLM])之间自由转换;但作者已经证明了从 Stable Diffusion v1.5 > SDXL 进行 LoRA 的有效音译,以及将基于文本的 TinyLlama 3T 模型的 LoRA 转换为 TinyLlama 2.5T。
LoRA-X 通过保留 适配器 在源模型的子空间内;但仅限于模型中各个模型版本足够相似的部分。

左侧是 LoRA-X 源模型微调适配器的方式示意图,然后调整适配器以适应目标模型。右侧是目标模型 SD Eff-v1.0 和 SSD-1B 在应用从 SD-v1.5 和 SDXL 转移的适配器后生成的图像,无需额外训练。
虽然这为不希望或不可能进行再训练的情况(例如原始训练数据的许可证更改)提供了实用的解决方案,但该方法仅限于类似的模型架构,还有其他限制。
虽然这是对一个研究不足的领域的一次罕见尝试,但我们不会深入研究这篇论文,因为 LoRA-X 存在许多缺陷,这一点从其评论中可以看出。 《开放评论》的评论家和顾问.
该方法依赖于 子空间相似性 将其应用限制在密切相关的模型中,作者们 承认 在评论论坛中,LoRA-X 无法轻松地在明显不同的架构之间转移
其他 PEFT 方法
使 LoRA 在不同版本之间更具可移植性的可能性是文献中一项虽小但有趣的研究,而 LoRA-X 对这一追求的主要贡献是它声称不需要训练。如果你读过这篇论文,就会发现这并不完全正确,但它确实是所有先前方法中训练最少的。
LoRA-X 是 参数高效的微调 (PEFT)方法解决了将大型预训练模型适应特定任务而无需大量再训练的挑战。这种概念方法旨在修改最少数量的参数,同时保持性能。
其中值得注意的是:
X-适配器
- X-适配器 框架通过一定程度的再训练将经过微调的适配器传输到各个模型。该系统旨在实现预先训练的即插即用模块(例如 控制网 和 LoRA) 从基础扩散模型 (即稳定扩散 v1.5) 直接与升级后的扩散模型 (如 SDXL) 协同工作,无需重新训练,有效地充当插件的“通用升级器”。
系统通过训练控制升级模型的附加网络来实现这一点,使用基础模型的冻结副本来保存插件连接器:

X-Adapter 的架构。 来源:https://arxiv.org/pdf/2312.02238
X-Adapter 最初开发和测试用于将适配器从 SD1.5 转移到 SDXL,而 LoRA-X 则提供更多样化的音译。
DoRA(权重分解低秩自适应)
DoRA 是一种增强的微调方法,它通过使用更类似于完全微调的权重分解策略对 LoRA 进行了改进:

DORA 并不像 LoRA-X 那样仅仅尝试在冻结环境中复制适配器,而是改变权重的基本参数,例如幅度和方向。 来源:https://arxiv.org/pdf/2402.09353
DoRA 专注于改进微调过程本身,将模型的权重分解为幅度和方向(见上图)。而 LoRA-X 则专注于实现不同基础模型之间现有微调参数的转移
然而,LoRA-X 方法采用了 投影 为 DORA 开发的技术,并在针对这个旧系统的测试中声称改进了 DINO 得分了。
FouRA(傅里叶低秩自适应)
2024 年 XNUMX 月出版, FouRA方法 与 LoRA-X 一样,它来自高通人工智能研究部门,甚至分享了它的一些测试提示和主题。

LoRA 中的分布崩溃示例,来自 2024 年 FouRA 论文,使用 Realistic Vision 3.0 模型,该模型使用 LoRA 和 FouRA 训练,用于“Blue Fire”和“Origami”样式适配器,跨越四个种子。LoRA 图像表现出分布崩溃和多样性降低,而 FouRA 则产生更多样的输出。 来源:https://arxiv.org/pdf/2406.08798
FouRA 致力于通过在频域中采用 LoRA 来提高生成图像的多样性和质量,使用 傅立叶变换 的方法。
在这里,LoRA-X 再次取得了比基于傅里叶的 FouRA 方法更好的结果。
虽然这两个框架都属于 PEFT 类别,但它们的用例和方法却截然不同;在这种情况下,FouRA 可以说是在为新论文作者参与的同类竞争对手有限的测试轮“凑数”。
SVDiff
SVDiff 的目标也与 LoRA-X 不同,但在新论文中得到了大力利用。SVDiff 旨在提高扩散模型微调的效率,并直接修改模型权重矩阵中的值,同时保持奇异向量不变。SVDiff 使用 截断奇异值分解,仅修改最大值,以调整模型的权重。
这种方法使用了一种称为 切割-混合-分解:

多主题生成在 SVDiff 中作为概念隔离系统运行。 来源:https://arxiv.org/pdf/2303.11305
Cut-Mix-Unmix 旨在帮助扩散模型学习多个不同的概念,而不会将它们混合在一起。核心思想是拍摄不同主题的图像并将它们连接成一张图像。然后使用明确描述图像中单独元素的提示来训练模型。这迫使模型识别并保留不同的概念,而不是将它们混合在一起。
在训练期间, 正则化 术语有助于防止跨主题干扰。作者的理论认为,这有助于改进多主题生成,其中每个元素在视觉上保持独特,而不是融合在一起。
SVDiff 被排除在 LoRA-X 测试轮之外,其目标是创建紧凑的参数空间。而 LoRA-X 则通过在原始模型的子空间内进行操作,专注于实现 LoRA 参数在不同基础模型之间的可转移性。
结语
这里讨论的方法并不是 PEFT 的唯一方法。其他方法包括 QLoRA 和 QA-LoRA; 前缀调优; 及时调整;和 适配器调整等等。
“可升级的 LoRA” 或许是一种炼金术般的追求;当然,目前还没有任何可以阻止 LoRA 建模者再次拖出旧数据集来获得最新和最好的权重版本。如果存在某种可能的权重修订原型标准,能够在模型版本之间承受架构变化和参数膨胀,那么它尚未出现在文献中,并且需要继续从每个模型的数据中提取。
首次发布于 30 年 2025 月 XNUMX 日星期四