人工智能

研究发现：微调AI模型造成的损害可轻松恢复

Published October 1, 2024

Updated March 19, 2026

Martin Anderson

AI-generated image from ChatGPT. Prompt: ' a photorealistic panoramic image of a scientist in a white coat, wearing protective soldering goggles, who is soldering circuitry in an open panel of the underside of a massive and high-tech computer system. Photorealistic, gorgeous, UHQ'

美国的新研究表明，在自有数据上对AI基础模型进行微调，并不一定会降低或损害原始模型的功能——而且一个相对简单的修复方法，不仅可以恢复原始模型的能力，实际上还能提升你希望（已训练的）模型产出的输出质量。

Performance gains on diverse models with the authors' new post-training calibration. Further details later in the article. Source: http://export.arxiv.org/pdf/2409.16223

采用作者新的训练后校准方法后，多种模型获得的性能提升。文章后续有更多细节。Source: http://export.arxiv.org/pdf/2409.16223

这一发现意义重大，不仅对那些注意力正集中在出租生成式系统“即服务”所带来的经济回报的科技巨头而言，而且对越来越多的“剪线族”爱好者也是如此，他们下载并定制开源模型，以便能以更低的成本和更少的限制，访问个性化的AI写作和图像/视频生成系统。该论文的作者毫不掩饰对其方法潜力的热情，该方法显然在2023年的提交论文《整体迁移：面向使用部分目标数据的非破坏性微调》（与新论文的许多贡献者合著）基础上取得了重大进展。他们表示：

“这些[发现]令人鼓舞且具有深远意义！它们意味着，简单的后处理校准有可能解决微调模型在缺失类别上准确率较低的问题，恢复预训练模型的能力，同时揭示其在所有类别上改进的特征质量。”

我们稍后将审视这项新工作。首先，让我们看看它旨在解决什么问题。

为何重要

第一波广泛的微调发生在Stability.ai于2002年8月发布其Stable Diffusion文生图模型之后。早期模型基于超大规模LAION数据集的子集进行训练，并可供任何人下载。然而，想要将特定内容（如自己的身份、艺术风格或名人形象）融入Stable Diffusion非凡的生成能力中的用户，不得不求助于诸如DreamBooth之类的技术——这是谷歌研究定制方法的一种扩展，允许用户通过微调将新数据训练到免费可用的模型中。

Examples of the user process for Google's official DreamBooth implementation from 2022. The user curates a small selection of images and chooses a unique name (one that Stable Diffusion does not have in its training data) in text-prompts from the fine-tuned model. Source: https://dreambooth.github.io/

2022年谷歌官方DreamBooth实现的用户流程示例。用户精选少量图像，并为微调模型生成的文本提示选择一个独特名称（Stable Diffusion训练数据中没有的名称）。 Source: https://dreambooth.github.io/

通过这种方式，可以获得一个非常擅长创建特定人物或自定义艺术风格的模型副本，但该模型对于更通用的用途来说现在已“受损”。这意味着，如果你想微调Stable Diffusion，使其能准确描绘三个不同的人，你不可避免地需要创建三个不同的模型，每个大约2-4GB或更大。任何尝试再次微调这些模型的行为，不仅会进一步降低模型的通用性能，还会对先前微调会话的输出产生不利影响。无论如何，名人DreamBooth模型很快在互联网上激增，主要集中在civit.ai域名下。最终，诸如低秩适应这类更简便的方法在流行度上超越了微调（尽管LoRA的输出是否与完全微调一样有效仍存在争议，并且英伟达此后开源了一种显然更有效的方法，称为DoRA）。 LoRA属于参数高效微调类别，它只影响模型训练参数的一个子集。一些用户希望通过在成千上万张图像上进行微调，来改变开源Stable Diffusion检查点的基本性质。这实际上产生了一个替代的基础模型，专门用于用户试图训练的任何领域（例如特定的艺术风格）。为此，“轻量级”方法如LoRA可能效果较差，因为模型的权重需要严重偏向新的训练数据。

本地聊天

随着最近对大语言模型兴趣的激增，希望避开日益增多的API驱动服务（及相关成本，如ChatGPT）的用户，越来越多地开始下载并微调有效的开源模型，例如Llama 3等。在这里，同样可以使用LoRA来代替微调完整的检查点。我们之前曾主张，微调是生产适应特定用户需求的LLM的优越方法。尽管微调可能对硬件要求更高且耗时更长，但它能对用户希望模型吸收的新数据提供更深层次的泛化。微调的问题在于，如上所述，它是一个破坏性的过程，无法在以后对额外数据进行增量训练。注入模型的特征和偏见显然扰乱了数据集中权重的原始平衡，这意味着模型要么过度倾向于反映用户贡献的数据，要么至少在总体上（在与新数据无关的任务上）比原始基础模型表现更差。人们可以通过在训练期间冻结模型的某些部分来在一定程度上补救这一点；但这可能导致通用功能降低，因为架构中被冻结的部分可能无法很好地泛化到模型潜在空间中新微调的数据。因此，如果有一种更简单的方法，既能保留微调模型的原始能力，又能保持模型基于微调数据产生输出的能力，那将是非常棒的。这样的发展将惠及所有潜在用户，从使用本地LLM和其他类型生成模型的爱好者和早期采用者，到FAANG级别的公司（在那里，一个非常昂贵的AI模型可以迭代地、非破坏性地改进，而无需花费数百万美元从头开始用额外数据重新训练）。

后处理校准

这让我们回到这篇新论文，它名为《微调没问题，只要校准好》，来自俄亥俄州立大学、威斯康星大学麦迪逊分校和伦斯勒理工学院的11位研究人员。研究人员试图找出基础模型在微调时具体哪些部分受到了损害。他们得出结论，模型“前后”之间唯一的主要区别是，微调类别和模型中原始类别的logit尺度表现出重大差异。 Logit链接预测逻辑回归过程中的成功概率，将估计值（可能非常精确）转换为0或1。作者不仅发现这种缺陷几乎可以通过校准技术随意逆转，而且这种事后修复实际上提高了微调数据的输出质量。因此，使用这种技术，你不仅能获得基础模型的原始能力，还能更好地整合你自己的微调数据。 （尽管论文未探讨这一前景，但该技术意味着模型可以被多次微调，并保持有效性） 在讨论他们调查微调后模型损伤的发现时，作者表示：

“令我们惊讶的是，我们发现微调后的模型既没有忘记其他类别之间的关系，也没有降低识别这些类别的特征质量。

相反，微调后的模型通常为这些其他类别产生更具区分性的特征，即使它们在微调期间是缺失的！

真正损害准确率的是微调类别与其他[类别]之间不一致的logit尺度，这意味着简单的后处理校准将恢复预训练模型的能力，同时揭示所有类别上的特征改进。”

作者已在GitHub仓库中提供了他们对此理论测试的可复现结果。他们发现，经过调查，基础模型架构中在微调过程中受损的唯一部分是二元分类器，它将原始模型中缺失的类别误分类为微调类别。论文指出*：

“通过向所有缺失类别的logits添加一个校准偏置因子[4, 40]，微调后的模型可以成功恢复缺失类别的准确率，并在下游[领域]获得可观的整体改进。

由此产生的性能甚至在许多基准测试中超越了强大的基线[整体迁移——本论文构建的基础论文]，包括ImageNet及其变体[ImageNet, ImageNet-R(endition), ImageNet-S(ketch)]、Office-Home和VTAB，无需复杂的训练和超参数设置。”

A fine-tuned model that has had post processing calibration performed on it can, the authors state, outperform the state-of-the-art approach to the problem.

论文结果：作者表示，经过后处理校准的微调模型可以超越该问题的最先进方法。

作者将经过后校准的微调模型的改进性能归类为“意外的良性行为”，并观察到当使用基本的随机梯度下降优化器时，可以获得比当前更流行的优化器（如Adam）更好的结果。 “尽管如此，”他们指出“只要学习率和权重衰减足够小，这些良性行为就会出现并保持。”

微小修复

为了修复微调导致的logit差异，作者借鉴了一种来自零样本学习的技术，向所有缺失类别的logits添加一个常数因子。这产生了一个新的分类规则。作者指出，这个过程将“被忽视的缺失类别提升到与微调类别相同的预测质量”，恢复了原始性能，并在推理时提高了“新增”数据的性能。

In tests, the post-calibration technique restored performance to a diversity of fine-tuned models. The 'Oracle' indicated in the table refers to a fine-tuned classifier that also takes into consideration missing class data.

在测试中，后校准技术为多种微调模型恢复了性能。表中所示的“Oracle”指的是一个也考虑了缺失类别数据的微调分类器。

他们进一步观察到，后处理校准“可能适用于任何模型”，并且那些试图通过冻结层（如分类器和主干网络）来保持基础模型完整性的方法，与他们自己提出的方法相比得分较低。

结论

这项合作研究的发现似乎意义重大。在超大规模数据集上训练AI模型是一项巨大的投入，类似于客机的起飞。虽然训练可以中断，并且可以通过定期保存当前权重（存储成本相当高）来减轻任何损害，以便允许训练中断，但在“起飞”后，能改变结果的事情相对较少。这项工作的令人印象深刻之处在于，研究人员似乎发现了通用AI模型训练中的一个基本原理，并且他们的解决方案出人意料地优雅。能够在微调后保持基础模型准确性的经济意义也同样重大。迄今为止，解决价值数百万美元的模型缺陷的最常见方法是在推理时过滤输出，或者控制推理以避免模型中任何明显的致命弱点。此外，从理论上讲，这种技术可以显著提升消费者级别微调生成模型的能力，并附带提高输出质量的额外好处。 * 我已将作者的内联引用转换为超链接。 首次发布时间：2024年10月1日，星期二

Martin Anderson

Writer on machine learning, domain specialist in human image synthesis. Former head of research content at Metaphysic.ai.
Personal site: martinanderson.ai
Contact: [email protected]
Twitter: @manders_ai

Unite.AI

研究发现：微调AI模型造成的损害可轻松恢复

为何重要

本地聊天

后处理校准

微小修复

结论

You may like