Anderson 视角
个性化语言模型容易制作 – 但更难被检测

开源的ChatGPT克隆可以大规模地进行微调,并且可以使用有限或没有专业知识,促进了“私人”语言模型的发展,这些模型可以逃避检测。 大多数工具无法追踪这些模型的来源或它们被训练做什么,允许学生和其他用户生成AI文本而不被发现;但是,一种新方法声称可以通过识别模型输出中的共享“家族特征”来识别这些隐藏的变体。
根据加拿大的一项新研究,类似于ChatGPT的用户定制AI聊天模型能够生成类似人类写作的社交媒体内容,并且可以欺骗最先进的检测算法和人类。
该论文指出:
‘一个现实主义的攻击者可能会为他们的特定风格和用例对模型进行微调,因为这样做很便宜和容易。经过最小的努力、时间和金钱,我们生产了微调后的生成器,能够生成更真实的社交媒体推文,基于语言特征和检测准确率,并通过人类注释进行验证。’
作者强调,这种自定义模型并不仅限于短形式的社交媒体内容:
‘虽然我们最初的动机是社交媒体上AI内容的传播和相关的水军和影响力活动的风险,但我们强调我们的主要发现可以应用于所有文本领域。 ‘
‘事实上,微调模型以生成特定风格的内容是一种普遍适用的方法,并且可能已经被许多生成式AI用户使用——这使得人们对现有的AIGT检测方法在现实世界中的有效性产生了疑问。’
如论文所观察到的,这些定制语言模型的创建方法是微调,其中用户策划了一小部分自己的目标数据并将其输入到越来越多的易于使用和廉价的在线训练工具中。
例如,流行的存储库Hugging Face 提供大型语言模型(LLM)微调,通过其AutoTrain Advanced系统实现简化接口,可以使用在线GPU 或免费本地运行,如果用户具有足够的硬件:

Hugging Face AutoTrain系统中各种GPU的价格结构。来源:https://huggingface.co/spaces/autotrain-projects/autotrain-advanced?duplicate=true
其他简化方法和平台包括 Axolotl、Unsloth 和更强大的但更耗费资源的 TorchTune。
一个示例用例将是一个厌倦自己写论文的学生,但又担心被在线AI检测工具抓住,他们可以使用自己的真实历史论文作为训练数据来微调一个非常有效的流行开源模型,例如 Mistral 系列。
虽然微调模型 往往会偏向 额外训练数据并降低整体性能,但“个性化”模型可以用来“去AI化”来自ChatGPT等系统的日益独特的输出,以一种反映用户自己历史风格(以及为了增加真实性,他们的缺点)的方式。
然而,人们可以专门使用一个专门为狭窄任务或一系列任务训练的微调模型,例如在特定大学模块的课程上微调的LLM。这样一个特定的模型将比像ChatGPT这样的全能LLM具有更深入的见解,但可能只需花费不到10-20美元来训练。
LLM冰山
很难说这种做法的规模有多大。根据传闻,在各种社交媒体平台上,我最近遇到了很多商业导向的LLM微调示例——绝对比一年前多;在一个例子中,一家公司在自己的已发表的思想领导力文章上微调了一个语言模型,然后能够几乎一次性地将与新客户的凌乱的Zoom通话转换成一篇精致的B2B帖子。
这种模型需要 配对数据(大规模的前后示例),而创建一个特定作者特征的个性化“光泽”则是一个更容易的任务,更类似于 风格转换。
虽然这是一个秘密的追求(尽管有很多 头条新闻 和 学术研究 关于这个话题),但由于没有可用的数字,同样的常识使得 TAKE IT DOWN 法案 在今年成为法律:目标活动是可能的,并且价格合理,而且有很强的常识理解,潜在用户有很强的动机。
只剩下足够的摩擦,使得最“傻瓜化”的在线微调系统中的这种练习仍然是一个相对小众的用例——至少目前是这样,尽管它绝对不超出学生的传统发明性。
PhantomHunter
这带来了我们这里的主要论文——来自中国的一种新方法——它将多种技术汇集到一个单一的框架中,称为 PhantomHunter,它声称可以识别微调语言模型的输出,这些输出原本会被认为是原创的人类作品。
该系统旨在即使在从未遇到过特定的微调模型的情况下也能正常运行,而是依赖于原始基模型留下的残留痕迹——作者将其描述为“家族特征”,这些特征可以在微调过程中幸存下来。
在测试中,该论文——题为 PhantomHunter:通过家族感知学习检测未见私人调优LLM生成文本 ——报告了强大的检测准确率,该系统在追踪回文本样本到其模型家族方面优于零次GPT-4迷你评估†。
这表明,模型被微调得越多,就会越多地透露其祖先的信息,反驳了私人微调总是掩盖模型起源的假设;相反,微调过程可能会留下可检测的指纹,如果正确读取,就会泄露信息——至少在进一步的进步到来之前是这样。
该论文指出*:
‘[机器生成文本]检测通常通过二元分类来区分LLM生成和人类写作文本。现有的方法要么 学习LLM之间共享的常见文本特征,使用表示学习,要么基于LLM的内部信号(例如 令牌概率)设计可区分的指标来区分人类和LLM文本。 ‘
‘对于这两种类别,它们的测试主要是在公开可用的LLM数据上进行的,假设用户使用公共、开箱即用的服务生成文本。 ‘
‘我们认为这种情况正在由于最近的开源LLM社区的发展而发生变化。 有了像 HuggingFace这样的平台和像 LoRA这样的高效LLM训练技术,使用私人数据集构建微调后的LLM变得比以前容易得多。 ‘
‘例如,HuggingFace上已经有超过 60k个基于Llama的衍生模型。在未知语料库上进行私人微调后,基模型的学习特征可能会发生变化,LLMGT检测器将 失败,形成了一个新风险,即恶意用户可以在不被LLMGT检测器抓住的情况下生成有害文本。 ‘
‘一个新挑战出现:如何检测私人调优的开源LLM生成的文本?‘
方法和训练
PhantomHunter系统使用一种 家族感知 学习策略,结合三个组件:一个 特征提取器,捕获来自已知基模型的输出概率;一个 对比编码器,训练以区分家族;以及(如下所述)一个 专家混合分类器,为新文本样本分配家族标签:

系统的模式。PhantomHunter通过首先从多个基模型中提取文本样本的概率特征来处理文本样本,然后使用CNN和Transformer层进行编码。它估计模型家族以计算门控权重,这些权重指导专家混合模块来预测文本是否是LLM生成的。在训练期间应用对比损失以改进模型家族之间的区分。来源:https://arxiv.org/pdf/2506.15683
PhantomHunter的工作原理是将一段文本传递给几个已知的基模型,并在每一步记录每个模型认为下一个单词的可能性。然后将这些模式输入到一个神经网络中,学习每个模型家族的区别特征。
在训练期间,系统通过比较同一家族的文本并学习将它们分组在一起,同时区分不同家族的文本,帮助识别微调模型和基模型之间的隐藏联系。
MOE
为了决定一段文本是由人类还是AI写的,PhantomHunter使用一个 专家混合 系统,其中每个“专家”都针对特定模型家族的文本进行了调优。
一旦系统猜测文本最有可能来自哪个家族,它就会使用这个猜测来决定如何权衡每个专家的意见。这些加权意见然后被组合起来做出最终的判决:AI还是人类。
训练系统涉及多个目标:学习识别模型家族;学习区分AI文本和人类文本;以及通过对比学习区分不同的家族——这些目标通过可调参数在训练期间进行平衡。
通过关注每个家族共享的模式,而不是个别模型的怪癖,PhantomHunter理论上应该能够检测到甚至从未见过的微调模型。
数据和测试
为了开发测试数据,作者专注于两个最常见的学术场景:写作和问答。对于写作,他们从Arxiv学术 存档 中收集了 69,297 个摘要,按主要领域划分。对于问答,他们从 HC3 数据集 中策划了 2,062 个对,涵盖三个主题:ELI5;金融;和 医学:

研究中使用的数据源和数量列表。
总共训练了十二个模型。三个基模型是 LLaMA-2 7B-Chat;Mistral 7B-Instruct-v0.1;和 Gemma 7B-it),从中创建了九个微调变体,每个都针对特定领域或作者风格进行了定制,使用特定领域的数据:

评估数据集的统计数据,其中“FT 域”指的是微调期间使用的域,“base”表示没有微调。
因此,总共有三个基模型使用全参数和 LoRA 技术在每个使用场景中进行了微调,涉及三个不同的领域:学术摘要写作 和 问答。为了反映现实世界的检测挑战,微调在计算机科学数据上的模型从写作测试中排除,而微调在金融数据上的模型从问答评估中排除。
所选的对手框架包括 RoBERTa;T5-Sentinel;SeqXGPT;DNA-GPT;DetectGPT;Fast-DetectGPT;和 DeTeCtive。
PhantomHunter 使用两种类型的神经网络层进行训练:三个 卷积层,带有 最大池化,用于捕获局部文本模式,以及两个 Transformer 层,每个带有四个注意力头,用于建模更长距离的关系。
对于 对比学习,它鼓励系统区分不同的模型家族,温度 参数设置为 0.07。
训练目标结合了三个损失项:L1(用于家族分类)和 L2(用于二元检测),每个权重为 1.0,以及 L3(用于对比学习),权重为 0.5。
该模型使用 Adam 优化,学习率为 2e-5,批大小为 32。训练在十个完整的 epoch 中进行,使用 验证集 选择最佳性能检查点。所有实验都在具有四个NVIDIA A100 GPU的服务器上进行。
使用的指标是 F1 得分,用于每个测试子集,以及 真阳性率,用于与商业检测器进行比较。

检测来自未见微调语言模型的文本的F1得分。每个类别中的前两个结果以粗体和下划线显示。’BFE’指的是基概率特征提取,’CL’指的是对比学习,’MoE’指的是专家混合模块。
初始测试的结果,如上表所示,表明PhantomHunter在所有基线系统上都表现出了色,保持了人类和机器生成文本的F1得分均超过90%,即使在评估来自训练中排除的微调模型的输出时也是如此。
作者评论:
‘使用全参数微调,PhantomHunter在MacF1评分上比最佳基线提高了3.65%和2.96%;使用LoRA微调,改进分别为2.01%和6.09%。 ‘
‘结果表明PhantomHunter在检测来自未见微调LLM的文本方面具有强大的检测能力。’
进行了消融研究,以评估PhantomHunter架构中每个核心组件的作用。当单独删除元素(如特征提取器、对比编码器或专家混合分类器)时,会观察到一致的准确率下降,表明架构依赖于所有部分的协调。
作者还检查了PhantomHunter是否可以推广到其训练分布之外,并确定,即使在应用于完全缺失训练的基模型的输出时,它仍然优于对手方法——这表明家族级别的签名在微调变体中仍然可检测。
结论
支持用户训练的生成语言模型的一个论点是,至少这些微调和LoRAs保留了作者的个性和怪癖,在一个AI聊天机器人可能使任何语言泛化的气候中。
随着 大学论文的贬值,以及学生现在 录制 大规模写作会话以证明他们没有在提交的作业中使用AI,更多的老师在欧洲以外的地区(口头考试已被规范化)正在 考虑面对面考试 作为替代提交文本的方法。更近期地,提出了 回归手写作业。
可以说,这两个解决方案都优于可能的LLM-based重演 深度伪造竞争;尽管它们需要人类的努力和关注,而科技文化目前正努力将其自动化。
† 请参阅源论文末尾的附加部分,获取有关此内容的详细信息。
* 我将作者的内联引用转换为超链接。作者的文本强调,不是我添加的。
首次发布于2025年6月19日星期四












