Anderson 视角
面向LoRAs的升级:实现模型版本升级的兼容性

自从我最近报道了Hunyuan Video LoRAs的增长,这些小型、训练好的文件可以将自定义个性注入多亿参数的文本到视频和图像到视频基础模型,Civit社区中的相关LoRAs数量已经增加了185%。

尽管创建Hunyuan Video LoRA没有简单或低成本的方法,但Civit的名人和主题LoRAs目录每天都在增长。 来源:https://civitai.com/
同一个社区正在学习如何为Hunyuan Video(HV)生产这些“添加个性”的同时,也正在渴望发布图像到视频(I2V)功能的Hunyuan Video。
在开源人像合成方面,这是一个大事件;结合Hunyuan LoRAs的增长,它可以使用户将照片转换为视频,而不会使视频随着发展而失去其身份,这是当前所有最先进的图像到视频生成器(包括Kling、Kaiber和RunwayML)中的情况。
点击播放。 来自RunwayML的最先进的Gen 3 Turbo模型的图像到视频生成。然而,与所有类似和较低版本的模型一样,当主题从摄像头转移开时,它无法保持一致的身份,起始图像的独特特征变成了“通用扩散女人”. 来源:https://app.runwayml.com/
通过为相关个性开发自定义LoRA,人们可以在HV I2V工作流中使用真实照片作为起始点。这比将随机数发送到模型的潜在空间并接受任何语义场景的结果要好。然后,可以使用LoRA或多个LoRA来保持一致的身份、发型、服装和其他关键方面的生成。
这种组合的可用性可能代表了自Stable Diffusion发布以来最重要的生成性AI转变,将强大的生成能力交给开源爱好者,而没有当前流行的gen vid系统中内容审查员(或“守门人”,如果你愿意)的监管。
当我写这篇文章时,Hunyuan图像到视频是一个未勾选的“待办事项”,在Hunyuan Video GitHub仓库中,爱好者社区报告(传闻)了一位Hunyuan开发者的Discord评论,据称该功能的发布已经由于模型“过于不受审查”而被推迟到第一季度的某个时候。

Hunyuan Video的官方功能发布清单。 来源:https://github.com/Tencent/HunyuanVideo?tab=readme-ov-file#-open-source-plan
准确或不准确,仓库开发人员已经在Hunyuan清单的其余部分做出了大量贡献,因此Hunyuan I2V似乎最终会到来,无论是否经过审查、不受审查,还是以某种方式“解锁”。
但是,如我们所见,I2V发布似乎是一个单独的模型——这使得当前在Civit和其他地方涌现的HV LoRAs不太可能与其兼容。
在这种(现在可以预测的)情景下,LoRA训练框架,例如Musubi Tuner和OneTrainer,要么会被新的模型所取代,要么会被重置以支持新的模型。同时,一两个最具技术专长(和创业精神)的YouTube AI名人可能会通过Patreon来赎回他们的解决方案,直到场景赶上。
升级疲劳
几乎没有人像LoRA或微调爱好者一样经历升级疲劳,因为生成性AI的快速和竞争性变化步伐鼓励模型铸造厂,如Stability.ai、Tencent和Black Forest Labs,以最大可能的频率生产更大和(有时)更好的模型。
由于这些新型和改进的模型至少会有不同的偏见和权重,并且更常见的是会有不同的规模和/或架构,这意味着微调社区必须再次拿出他们的数据集并为新版本重复耗时的训练过程。
因此,Civit有多种Stable Diffusion LoRA版本类型可用:

升级路径,通过civit.ai的搜索筛选选项可视化
由于这些轻量级LoRA模型与更高或更低版本的模型不兼容,并且其中许多依赖于流行的大规模合并和微调,这些合并和微调遵循较旧的模型,因此社区的很大一部分倾向于坚持使用“遗产”版本,就像客户对Windows XP的忠诚一样,即使在官方支持结束多年后仍然存在。
适应变化
这个话题让我想起了一篇来自高通AI研究的新论文,该论文声称已经开发了一种方法,可以将现有的LoRAs“升级”到新发布的模型版本。

跨模型版本转换LoRAs的示例。 来源:https://arxiv.org/pdf/2501.16559
这并不意味着新的方法,称为LoRA-X,可以在所有相同类型的模型(例如文本到图像模型或大型语言模型(LLMs))之间自由转换;但作者已经证明了将LoRA从Stable Diffusion v1.5转换为SDXL的有效转录,以及将TinyLlama 3T模型的LoRA转换为TinyLlama 2.5T。
LoRA-X通过在源模型的子空间中保留适配器,将LoRA参数转移到不同的基模型;但仅限于模型版本中足够相似的部分。

左边,LoRA-X源模型微调适配器的模式,然后使用其内部结构调整以适应目标模型。右边,目标模型SD Eff-v1.0和SSD-1B生成的图像,在应用从SD-v1.5和SDXL转移的适配器后,无需额外训练。
虽然这为不需要或无法重新训练的场景提供了一个实用的解决方案(例如原始训练数据的许可证发生变化),但该方法仅限于相似的模型架构等限制。
尽管这是对一个欠研究领域的罕见探索,我们不会深入研究这篇论文,因为LoRA-X的众多缺陷,如其评论者和顾问在Open Review中的评论所示。
该方法依赖于子空间相似性,限制了其应用于密切相关的模型,而作者已经承认在审查论坛中,LoRA-X不能轻松地跨不同架构转移。
其他PEFT方法
使LoRAs跨版本更具可移植性的可能性是一个小但有趣的研究线索,而LoRA-X对这一追求的主要贡献是其声称不需要训练。这并不是严格意义上的真实,如果你阅读这篇论文,但它需要的训练比以前的方法都少。
LoRA-X是参数高效微调(PEFT)方法的又一项,这些方法解决了将大型预训练模型适应特定任务而不进行大量重新训练的挑战。这种概念方法旨在修改最少的参数同时保持性能。
值得注意的有:
X-Adapter
X-Adapter框架可以通过一定程度的重新训练,将微调的适配器转移到不同的模型。该系统旨在实现预训练的即插即用模块(例如ControlNet和LoRA)从基础扩散模型(例如Stable Diffusion v1.5)直接适用于升级的扩散模型(例如SDXL),而无需重新训练;有效地作为插件的“通用升级器”。
该系统通过训练一个额外的网络来实现此目的,该网络控制升级后的模型,使用基础模型的冻结副本来保留插件连接器:

X-Adapter模式。 来源:https://arxiv.org/pdf/2312.02238
X-Adapter最初是为将适配器从SD1.5转移到SDXL而开发和测试的,而LoRA-X提供了更广泛的转录。
DoRA(权重分解低秩适应)
DoRA是一种增强的微调方法,通过使用更类似于完整微调的权重分解策略来改进LoRA:

DORA不仅仅是尝试在冻结环境中复制适配器,如LoRA-X所做的,而是改变权重的基本参数,例如大小和方向。 来源:https://arxiv.org/pdf/2402.09353
DoRA专注于改进微调过程本身,通过将模型的权重分解为大小和方向(见上图)。相反,LoRA-X专注于实现现有微调参数在不同基模型之间的转移。
然而,LoRA-X方法采用了为DORA开发的投影技术,并在与该较旧系统的测试中声称具有改进的DINO评分。
FouRA(傅里叶低秩适应)
2024年6月发表的FouRA方法来自高通AI研究,与LoRA-X类似,甚至共享一些测试提示和主题。

LoRA中的分布崩溃示例,来自2024年的FouRA论文,使用Realistic Vision 3.0模型训练LoRA和FouRA进行“蓝色火焰”和“折纸”风格适配器,跨四个种子。LoRA图像表现出分布崩溃和多样性降低,而FouRA生成更为多样的输出。 来源:https://arxiv.org/pdf/2406.08798
FouRA专注于通过在频率域中适应LoRA来提高生成图像的多样性和质量,使用傅里叶变换方法。
在这里,LoRA-X又一次比基于傅里叶的FouRA方法取得了更好的结果。
尽管这两个框架都属于PEFT类别,但它们具有非常不同的用例和方法;在这种情况下,FouRA可以说是“凑数”的测试对手,用于新论文的作者。
SVDiff
SVDiff具有与LoRA-X不同的目标,但在新论文中被强烈引用。SVDiff旨在提高扩散模型微调的效率,并直接修改模型权重矩阵中的值,同时保持奇异向量不变。SVDiff使用截断SVD,仅修改最大的值,以调整模型的权重。
这种方法使用了一种称为Cut-Mix-Unmix的数据增强技术:

SVDiff中的多主题生成作为概念隔离系统运行。 来源:https://arxiv.org/pdf/2303.11305
Cut-Mix-Unmix旨在帮助扩散模型学习多个不同的概念,而不混合它们。核心思想是将不同主题的图像连接成一个单独的图像。然后模型使用明确描述图像中单独元素的提示进行训练。这迫使模型认识和保留不同的概念,而不是将它们混合在一起。
在训练过程中,一个额外的正则化项有助于防止跨主题干扰。作者的理论认为,这有助于改进多主题生成,每个元素保持视觉上不同的,而不是融合在一起。
SVDiff被排除在LoRA-X测试轮之外,旨在创建一个紧凑的参数空间。LoRA-X则专注于在不同基模型之间转移LoRA参数,通过在原始模型的子空间中操作。
结论
这里讨论的方法并不是PEFT的唯一成员。其他方法包括QLoRA和QA-LoRA;前缀调优;提示调优;以及适配器调优,等等。
“可升级的LoRA”也许是一种炼金术的追求;当然,没有什么立即可见的东西可以阻止LoRA模型开发者不得不再次拿出他们的旧数据集,以适应最新和最伟大的权重发布。如果有可能的原型标准用于权重修订,能够在模型版本之间的架构变化和参数膨胀中生存下来,那么它还没有出现在文献中,并且需要继续从每个模型的数据中提取。
首次发布于2025年1月30日,星期四












