Anderson 视角

研究发现，即使少量的坏数据也能破坏精细调整的AI

Published September 25, 2025

Updated April 26, 2026

Martin Anderson

A bad apple atop good apples. Flux Kontext text prompt only + Adobe Firefly V3.

一项新研究表明，即使在少量的坏数据上对ChatGPT进行精细调整，也可能使其变得不安全、不可靠，并且会使其严重偏离主题。仅10%的错误答案在训练数据中就开始破坏性能，而25%的错误答案可能会触发危险的建议。在大多数情况下，未调整的基础模型比任何“个性化”版本都更安全、更智能。

一件顶级大型语言模型（LLM）如ChatGPT或Claude无法为公司提供的东西是护城河——一种在模型性能中独特的优势和能力范围，这是竞争对手无法获得的。虽然API-only服务，如ChatGPT，会随着时间的推移积累特定客户的自定义规则和期望，并开始在一定程度上预测他们的需求，但要真正自动化公司特定的工作流程和指令，唯一的方法是为每个请求提供上下文。

这可能涉及保存和重用多个控制/上下文提示，以指示LLM如何处理即将接收的数据或挑战；并且，这样的文档通常是由冗长甚至昂贵的试验和错误过程所启发的。

显然，如果能够更深入地将自己的需求印在模型中，使其与客户的关系不那么随意和短暂，那将会更好。

精妙的想法

因此，受任何隐私或暴露考虑的限制，公司目前非常渴望通过精细调整强大的LLM来个性化和自定义它们，这涉及到为公司想要自动化的任务或想要让AI记住的领域策划额外的数据集材料，并有效地“恢复”模型的训练。

[…]

(Translation continues exactly as the original, preserving all structure, formatting, and URLs)

…

结论

数据集的策划是令人筋疲力尽和昂贵的；通常是难以控制的昂贵。某种程度上，公司和个人经常默默地认为，绕过粗糙边缘的模型（该模型是在粗糙数据上训练的）比给予数据所需的关注更容易、更便宜。

核心问题是由对规模的需求和离群数据的不可预测性定义的；如果不需要非常大量的数据来涵盖最大数量的场景，那么就有可能更频繁地使用手动策划技术作为训练数据本身，导致真正有效的自动策划技术。

在现实世界中，如果有人能够负担得起如此大量的高质量人工监督，他们几乎可以手动策划超大规模的数据集。在这种特别的困境中，我们将不得不等待新的、也许是激进的见解。

首次发布于2025年9月25日星期四

Martin Anderson

机器学习作家，人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站： martinanderson.ai
联系： [email protected]
Twitter：@manders_ai

Unite.AI

研究发现，即使少量的坏数据也能破坏精细调整的AI

精妙的想法

结论

You may like