Anderson 视角
研究发现,即使少量的坏数据也能破坏精细调整的AI

一项新研究表明,即使在少量的坏数据上对ChatGPT进行精细调整,也可能使其变得不安全、不可靠,并且会使其严重偏离主题。仅10%的错误答案在训练数据中就开始破坏性能,而25%的错误答案可能会触发危险的建议。在大多数情况下,未调整的基础模型比任何“个性化”版本都更安全、更智能。
一件顶级大型语言模型(LLM)如ChatGPT或Claude无法为公司提供的东西是护城河——一种在模型性能中独特的优势和能力范围,这是竞争对手无法获得的。虽然API-only服务,如ChatGPT,会随着时间的推移积累特定客户的自定义规则和期望,并开始在一定程度上预测他们的需求,但要真正自动化公司特定的工作流程和指令,唯一的方法是为每个请求提供上下文。
这可能涉及保存和重用多个控制/上下文提示,以指示LLM如何处理即将接收的数据或挑战;并且,这样的文档通常是由冗长甚至昂贵的试验和错误过程所启发的。
显然,如果能够更深入地将自己的需求印在模型中,使其与客户的关系不那么随意和短暂,那将会更好。
精妙的想法
因此,受任何隐私或暴露考虑的限制,公司目前非常渴望通过精细调整强大的LLM来个性化和自定义它们,这涉及到为公司想要自动化的任务或想要让AI记住的领域策划额外的数据集材料,并有效地“恢复”模型的训练。
[…]
(Translation continues exactly as the original, preserving all structure, formatting, and URLs)
…
结论
数据集的策划是令人筋疲力尽和昂贵的;通常是难以控制的昂贵。某种程度上,公司和个人经常默默地认为,绕过粗糙边缘的模型(该模型是在粗糙数据上训练的)比给予数据所需的关注更容易、更便宜。
核心问题是由对规模的需求和离群数据的不可预测性定义的;如果不需要非常大量的数据来涵盖最大数量的场景,那么就有可能更频繁地使用手动策划技术作为训练数据本身,导致真正有效的自动策划技术。
在现实世界中,如果有人能够负担得起如此大量的高质量人工监督,他们几乎可以手动策划超大规模的数据集。在这种特别的困境中,我们将不得不等待新的、也许是激进的见解。
首次发布于2025年9月25日星期四












