Connect with us

人工智能

向LoRAs迈进:实现模型版本升级的生存能力

mm
ChatGPT-4o: variation on ‘a 1792x1024 feature article reportage image of a skip full of discarded metal figurines, featuring realistic men and women of all ages and all types’

自从我最近报道了Hunyuan Video LoRAs(小型、训练好的文件,可以将自定义个性注入多亿参数的文本到视频和图像到视频基础模型)以来,Civit社区中相关LoRAs的数量增加了185%。

尽管创建Hunyuan Video LoRA没有特别简单或低效的方法,但Civit的名人和主题LoRAs目录每天都在增长。来源:https://civitai.com/

尽管创建Hunyuan Video LoRA没有特别简单或低效的方法,但Civit的名人和主题LoRAs目录每天都在增长。 来源:https://civitai.com/

同一个社区正在学习如何为Hunyuan Video(HV)生产这些“添加个性”的同时,也在渴望Hunyuan Video中图像到视频(I2V)功能的发布,这是Hunyuan Video的一个承诺。

在开源人像合成方面,这是一个大事件;结合Hunyuan LoRAs的增长,它可以使用户将照片转换为视频,而不会随着视频的发展而侵蚀他们的身份——这目前是所有最先进的图像到视频生成器的特点,包括Kling、Kaiber和备受赞誉的RunwayML:

点击播放。 来自RunwayML的最先进的Gen 3 Turbo模型的图像到视频生成。然而,与所有类似和较低级别的竞争模型一样,它无法在主题转身离开相机时保持一致的身份,起始图像的独特特征变成了“通用扩散女人”. 来源:https://app.runwayml.com/

通过为相关个性开发自定义LoRA,可以在HV I2V工作流中使用他们的真实照片作为起点。这比将随机数发送到模型的潜在空间并接受任何语义场景的结果要好。然后,可以使用LoRA或多个LoRA来保持一致的身份、发型、服装和其他关键方面。

这种组合的可用性可能代表了自Stable Diffusion发布以来最重要的生成AI转变之一,赋予开源爱好者强大的生成能力,而没有当前热门生成视频系统中内容审查员(或“守门人”,如果你喜欢)的监管。

当我写这篇文章时,Hunyuan图像到视频仍然是Hunyuan Video GitHub仓库中一个未完成的“待办事项”,社区报告(传闻)来自Hunyuan开发者的Discord评论,据称该功能的发布因模型“过于不受审查”而被推迟到第一季度末。

Hunyuan Video的官方功能发布清单。来源:https://github.com/Tencent/HunyuanVideo?tab=readme-ov-file#-open-source-plan

Hunyuan Video的官方功能发布清单。 来源:https://github.com/Tencent/HunyuanVideo?tab=readme-ov-file#-open-source-plan

无论是否准确,仓库开发人员已经在清单的其余部分做出了大量的贡献,因此Hunyuan I2V似乎最终会到来,无论是经过审查、不受审查还是以某种方式“解锁”。

但正如我们在上面的清单中看到的,I2V版本是一个单独的模型——这使得当前在Civit和其他地方蓬勃发展的HV LoRAs能够与之功能的可能性极小。

在这种(现在)可以预测的情景中,LoRA训练框架,如Musubi Tuner和OneTrainer,将要么被推回或在支持新模型方面被重置。同时,一两个最擅长技术(和创业精神)的YouTube AI名人将通过Patreon来勒索他们的解决方案,直到场景赶上。

升级疲劳

几乎没有人像LoRA或微调爱好者一样经历升级疲劳,因为生成AI的快速和竞争性变化步伐鼓励模型铸造厂,如Stability.ai、Tencent和Black Forest Labs,以最大可行的频率生产更大和(有时)更好的模型。

由于这些新而改进的模型至少会有不同的偏见和权重,并且更常见的是会有不同的规模和/或架构,这意味着微调社区必须再次拿出他们的数据集并为新版本重复艰苦的训练过程。

因此,Civit上有多种Stable Diffusion LoRA版本类型可用:

升级路径,以civit.ai的搜索筛选选项可视化

升级路径,以civit.ai的搜索筛选选项可视化

由于这些轻量级LoRA模型与更高或更低版本的模型不兼容,并且由于它们中的许多依赖于流行的大规模合并和微调,这些合并和微调遵循较旧的模型,因此社区中的很大一部分倾向于坚持使用“遗产”版本,以类似于客户对Windows XP的忠诚,即使在官方支持结束多年后仍然如此。

适应变化

这个话题之所以受到关注,是因为Qualcomm AI Research的一篇新论文声称已经开发出一种方法,可以将现有的LoRAs“升级”到新发布的模型版本。

跨模型版本转换LoRAs的示例。来源:https://arxiv.org/pdf/2501.16559

跨模型版本转换LoRAs的示例。 来源:https://arxiv.org/pdf/2501.16559

这并不意味着LoRA-X方法可以在所有同类模型之间自由转换(例如,文本到图像模型或大型语言模型[LLM]);但是,作者已经证明了将LoRA从Stable Diffusion v1.5转换为SDXL的有效性,以及将TinyLlama 3T模型的LoRA转换为TinyLlama 2.5T。

LoRA-X通过在源模型的子空间中保留适配器来跨不同基础模型转移LoRA参数,但仅限于模型版本中足够相似的部分。

左侧为LoRA-X源模型的模式图,用于微调适配器,然后使用目标模型的内部结构进行调整。右侧为SD Eff-v1.0和SSD-1B目标模型生成的图像,应用了从SD-v1.5和SDXL转移的适配器,无需额外训练。

左侧为LoRA-X源模型的模式图,用于微调适配器,然后使用目标模型的内部结构进行调整。右侧为SD Eff-v1.0和SSD-1B目标模型生成的图像,应用了从SD-v1.5和SDXL转移的适配器,无需额外训练。

虽然这为不需要或无法重新训练的场景提供了一个实用的解决方案,但该方法仅限于相似的模型架构,以及其他限制。

尽管这是一次对一个欠研究领域的罕见探索,但我们不会深入研究这篇论文,因为LoRA-X的众多缺点,如其评论者和Open Review的顾问所证实。

该方法依赖于子空间相似性,这限制了其应用于密切相关的模型,作者已经承认在审查论坛中,LoRA-X不能轻松地跨越显著不同的架构。

其他PEFT方法

使LoRAs跨版本更具便携性的可能性是一个小但有趣的研究线索,LoRA-X对这一追求的主要贡献是其主张不需要训练。这并不是严格意义上的真相,如果你阅读这篇论文,但它需要所有先前方法中最少的训练。

LoRA-X是参数高效微调(PEFT)方法的一个条目,这些方法解决了将大型预训练模型适应特定任务而不需要大量重新训练的挑战。这种概念方法旨在修改最少的参数同时保持性能。

值得注意的包括:

X-Adapter

X-Adapter框架在模型之间转移微调适配器,需要一定程度的重新训练。该系统旨在实现预训练模块(如ControlNet和LoRA)的即插即用,从基础扩散模型(即Stable Diffusion v1.5)到升级扩散模型(如SDXL),无需重新训练。

系统通过训练一个额外的网络来控制升级模型,使用基础模型的冻结副本来保留插件连接器:

X-Adapter模式图。来源:https://arxiv.org/pdf/2312.02238

X-Adapter模式图。 来源:https://arxiv.org/pdf/2312.02238

X-Adapter最初被开发和测试,以从SD1.5转移到SDXL,而LoRA-X提供了更广泛的转换。

DoRA(权重分解低秩适应)

DoRA是一种增强的微调方法,通过使用权重分解策略改进LoRA,该策略更接近完整的微调:

DoRA不仅仅尝试在冻结环境中复制适配器,如LoRA-X所做的,而是改变权重的基本参数,例如幅度和方向。来源:https://arxiv.org/pdf/2402.09353

DoRA不仅仅尝试在冻结环境中复制适配器,如LoRA-X所做的,而是改变权重的基本参数,例如幅度和方向。 来源:https://arxiv.org/pdf/2402.09353

DoRA专注于通过分解模型的权重为大小和方向(见上图)来提高微调过程本身的质量。相反,LoRA-X专注于实现现有微调参数在不同基础模型之间的转移。

然而,LoRA-X方法采用了为DoRA开发的投影技术,并在测试中对比该较旧系统时声称具有改进的DINO评分。

FouRA(傅里叶低秩适应)

2024年6月发表的FouRA方法来自Qualcomm AI Research,与LoRA-X一样,甚至共享一些测试提示和主题。

来自2024年FouRA论文的LoRA分布崩溃示例,使用Realistic Vision 3.0模型训练LoRA和FouRA进行“蓝色火焰”和“折纸”风格适配器,跨四个种子。LoRA图像表现出分布崩溃和多样性降低,而FouRA生成更为多样的输出。来源:https://arxiv.org/pdf/2406.08798

来自2024年FouRA论文的LoRA分布崩溃示例,使用Realistic Vision 3.0模型训练LoRA和FouRA进行“蓝色火焰”和“折纸”风格适配器,跨四个种子。LoRA图像表现出分布崩溃和多样性降低,而FouRA生成更为多样的输出。 来源:https://arxiv.org/pdf/2406.08798

FouRA专注于通过在频域中适应LoRA来提高生成图像的多样性和质量,使用傅里叶变换方法。

这里,LoRA-X又一次比基于傅里叶的FouRA方法取得了更好的结果。

虽然这两个框架都属于PEFT类别,但它们具有非常不同的用例和方法;在这种情况下,FouRA可以说是“凑数”的测试对象,为新论文的作者提供了一个有限的类似对手。

SVDiff

SVDiff有不同的目标,但在新论文中被大量引用。SVDiff旨在提高扩散模型微调的效率,并直接修改模型权重矩阵中的值,同时保持奇异向量不变。SVDiff使用截断SVD,仅修改最大的值,以调整模型的权重。

这种方法使用一种称为Cut-Mix-Unmix的数据增强技术:

多主题生成在SVDiff中作为概念隔离系统运行。来源:https://arxiv.org/pdf/2303.11305

多主题生成在SVDiff中作为概念隔离系统运行。 来源:https://arxiv.org/pdf/2303.11305

Cut-Mix-Unmix旨在帮助扩散模型学习多个不同的概念,而不会将它们混淆在一起。其核心思想是将不同主题的图像连接成一个单独的图像。然后,模型使用明确描述图像中单独元素的提示进行训练。这迫使模型识别和保留不同的概念,而不是将它们混合在一起。

在训练过程中,一个额外的正则化项有助于防止跨主题干扰。作者的理论认为,这有助于实现更好的多主题生成,每个元素在视觉上保持明显的不同,而不是融合在一起。

SVDiff旨在创建一个紧凑的参数空间,而LoRA-X则专注于通过在原始模型的子空间中操作来实现LoRA参数在不同基础模型之间的转移。

结论

这里讨论的方法并不是PEFT的唯一居民。其他方法包括QLoRA和QA-LoRA;Prefix Tuning;Prompt-Tuning;以及adapter-tuning等。

“可升级的LoRA”可能是一种炼金术的追求;当然,目前没有什么可以立即阻止LoRA模型者为最新和最伟大的权重版本再次拿出他们的旧数据集。如果有一种可能的原型标准,能够在模型版本之间的变化和参数膨胀中生存下来,它还没有在文献中出现,并将需要从每个模型的数据中提取出来。

 

首次发表于2025年1月30日,星期四

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai