Anderson 视角

AI 生成的写作永远不会“疲劳”,因此揭示了自己

mm
AI-generated image, by Z-Image Turbo (V1) via Krita AI Diffusion. Prompt: 'An American, hot high-school exam room in Texas,, with all the students seated exhausted in the heat, at lines of desks, trying to concentrate on winning their exams. In the center of the picture we focus on an industrial humanoid robot who is filling out the exam papers so quickly that the A$ sheets are flying around its desk in a flurry of activity. Some of the nearby, sweating and exhausted young students are looking at the tireless robot with annoyance and/or jealousy.'

类似 ChatGPT 的 AI 通过增加一致性而暴露了自己,而人类的写作在整个过程中保持着不规律性。

 

大多数面向消费者的大型语言模型(LLMs)的上下文窗口有限,这是使它们忘记或错误回忆对话早期部分的因素之一,导致输出变成完全无意义的内容,或者更糟糕的是,看似连贯但包含微妙错误的文本。

由于这些情况会导致幻觉,而幻觉仍然是AI 完全市场推进的最大障碍,因此大量研究工作都投入到创建可以生成更长但更一致文本的生成式 AI 系统中。

事实上,进展如此之大,以至于识别长篇 AI 内容(即纯粹由 AI 生成的内容,假设最小或零人工后期处理)被认为是一个日益增长的问题

揭穿 AI 演讲

尽管如此,最近的实证研究认为,AI 文本生成器一次产生的输出越多,就越容易确定该文本是否由人类撰写;但关于这种检测“锚点”的公认智慧假设是,AI 可以被识别出来,因为它与人类不同,无论它做什么,它都有机会在更长的文本中更频繁地做到这一点。

没有关于这些“线索”在文本本身中的分布的假设。

为了挑战这一点,并扩展这个问题,最近来自中国的一项有趣的研究提供了一种新方法来区分新型长篇 AI 内容生成器和真正的人类作者。该研究的作者声称,标记逐一生成的 AI 文本的性质意味着它变得更一致,长度更长,而人们自己的怪癖不会随着长度的增加而减少。

这种方式,作者建议他们的见解提供了一个潜在的新指标用于 AI 文本检测系统*:

‘AI 生成的标记在文本后半部分表现出更小、更稳定的概率波动,因为模型的预测变得越来越一致,随着上下文的积累。

‘我们将这种模式称为 后期波动衰减。这种现象反映了自回归生成的固有行为:随着更多上下文的可用性,模型的预测分布变得更加明确,导致标记级别统计的变异性降低。

‘相比之下,人类的写作继续引入意外的词汇选择,并且在整个过程中保持更高的波动性。’

为了捕捉 AI 文本中积累的奇怪的“平滑度”,研究人员定义了两个简单的特征:第一个测量写作的统计行为在标记之间“跳跃”的程度;第二个检查短文本段中事物保持稳定的程度。

两个特征都只从输出的 第二半部分 计算出来,在那里 AI 变得明显更规律,人类写作则不然。作者指出,虽然这些信号单独使用效果很好,但当与 较旧的检测方法 结合使用时,它们的效果更好,这些方法扫描更广泛的模式。他们还指出,这种方法在较长的文本上表现最佳,在那里对比度可以变得更加明显。

新论文提出了一种通过第二半部分时间特征分析测试“AI 性”的方法,无需额外的训练或微调,也无需特权模型访问。

这项新工作的标题为 当 AI 安定下来:晚期稳定性作为 AI 生成文本检测的标志,由杭州西湖大学的四位作者完成。

方法

为了捕捉 AI 生成文本中日益增长的平滑度,研究人员设计了两个仅关注段落第二半部分的测量指标。这些指标依赖于来自标准语言模型的 对数概率得分,无需微调、重新训练或额外样本:

来自新论文的图 - 每行显示 EvoBench 中的一个基准指标在标记序列中的行为:原始值(左),绝对导数(中),局部标准差(右)。人类和 AI 线分别以蓝色和红色显示。最大的偏差出现在文本的第二半部分,特别是对数概率和采样差异,这两个指标显示出日益增长的分离度和更平滑的 AI 输出。熵和 Top-K 集中度在时间上变化很小。来源 - https://arxiv.org/pdf/2601.04833

来自新论文的图 – 每行显示 EvoBench 中的一个基准指标在标记序列中的行为:原始值(左),绝对导数(中),局部标准差(右)。人类和 AI 线分别以蓝色和红色显示。最大的偏差出现在文本的第二半部分,特别是对数概率和采样差异,这两个指标显示出日益增长的分离度和更平滑的 AI 输出。熵和 Top-K 集中度在时间上变化很小。来源 – https://arxiv.org/pdf/2601.04833

第一个度量值称为 导数离散度(DD),它跟踪模型的置信度从一个词到下一个词的变化程度。AI 文本往往会进入一种节奏,这些变化变得更小、更可预测。相比之下,人类写作保持“不均匀”。

第二个度量值,局部波动性(LV),检查模型的置信度在小文本窗口内“跳跃”的程度。同样,AI 倾向于随着时间的推移变得更加稳定,而人类的选择保持更令人惊讶、更不一致:

AI 文本变得更平滑,而人类写作保持不均匀。这些图跟踪模型的置信度在段落过程中如何变化,反映了词与词之间的变化的急剧程度和局部文本段内的变化量。在这两方面,机器生成的输出中下降更为明显,尤其是在中点之后,AI 写作达到比人类写作高出 32% 的稳定性。黄色框突出了第二半部分的这一日益增长的差距。

AI 文本变得更平滑,而人类写作保持不均匀。这些图跟踪模型的置信度在段落过程中如何变化,反映了词与词之间的变化的急剧程度和局部文本段内的变化量。在这两方面,机器生成的输出中下降更为明显,尤其是在中点之后,AI 写作达到比人类写作高出 32% 的稳定性。黄色框突出了第二半部分的这一日益增长的差距。

同样,两个指标都仅从文本的 后半部分 计算出来,在那里人类和机器写作之间的差异最为明显。然后,这些指标被合并成一个称为 时间稳定性检测(TSD)得分的单一值——该得分随着写作变得“更平滑”(并因此更可能由 AI 生成)而增加。然后使用一个简单的阈值来决定一个给定的段落是否可能由机器写成。

因为这些特征关注的是 何时 出现一个模式,而不是仅仅关注模式的外观,所以它们与搜索整个段落中统计异常的较旧方法相互补充。将 TSD 得分添加到 2024 年末的 Fast-DetectGPT(也与西湖大学合作)中,可以获得额外的改进(尤其是在长篇内容中,晚期平滑化效果最强)。

数据和测试

作者对两个相关的基准数据集进行了测试:EvoBench 包含 32,000 个人类/AI 文本对,跨越七个模型家族,包括 GPT-4;GPT-4o;ClaudeGoogle GeminiLLaMA-3;以及 Qwen,总共有 29 个模型版本。

另一个框架是 MAGE,它提供了 30,000 个测试对,跨越八个模型家族,包括(但不限于)OpenAI 的 GPT 系列,以及 LLaMA、OPTFLAN-T5 家族。

竞争者

新方法被测试与一系列零样本检测器相比,使用相同的替代模型。 可能性排名对数排名(DetectGPT) 测量了整个段落的标记级别统计数据;LLR(DetectLLM)应用了归一化,以允许跨模型的直接比较;以及 Fast-Detect 估计了通过采样扰动的局部曲率。

Lastde 分析了概率信号中的判别性子序列,而 FourierGPT 在频率域中运行。 Diveye 捕获了序列中“惊讶度”多样性的变化。

最后,UCE 评估了标记预测的不确定性特征,以识别不自然的置信模式。

实施和结果

所有检测方法都使用 Llama-3-8B-Instruct 作为共享的替代模型运行,输入序列限制为 512 个标记。仅从每个段落的第二半部分提取时间特征,使用 20 个标记的 滑动窗口 来衡量波动性。方法的融合版本,称为 TSD+,将所提出信号与 Fast-DetectGPT 结合起来。

接收者操作特性曲线下面积(AUROC)是主要的评估指标

各种测试方法在检测 AI 生成文本方面的多样化性能。检测准确性在两个基准数据集上进行展示:EvoBench,涵盖多个高知名度的 LLM,以及 MAGE,一个补充数据集。指标按方法类型分组:全局统计、时间特征和提议的变体。平均 AUROC 分数在最后一列中给出。作者方法的结果始终优于之前的基准,TSD+ 在几乎所有模型设置中都具有最高的分数。

各种测试方法在检测 AI 生成文本方面的多样化性能。检测准确性在两个基准数据集上进行展示:EvoBench,涵盖多个高知名度的 LLM,以及 MAGE,一个补充数据集。指标按方法类型分组:全局统计、时间特征和提议的变体。平均 AUROC 分数在最后一列中给出。作者方法的结果始终优于之前的基准,TSD+ 在几乎所有模型设置中都具有最高的分数。

在这些初始结果中,作者指出:

‘我们的简单时间特征在单独方法中实现了最先进的性能,TSD 在 EvoBench 上达到 83.36%,在 MAGE 上达到 71.56%,优于所有基准,包括 Fast-DetectGPT。

‘这很值得注意,考虑到我们方法的简单性:我们仅从序列的第二半部分计算二阶统计量,无需扰动采样或频率域变换。’

新方法在较新的 AI 模型(如 GPT-4 和 GPT-4o)上特别有效,能够比最接近的领先检测器更准确地识别 AI 写的文本,性能差距高达 9.66%。虽然较新的高级模型产生的文本不那么明显地“一致”,这使得自动化的迹象更难被发现,但在末端仍然存在某些微妙的时序模式。

专注于广泛结构特征的竞争方法未能捕捉到这些晚期模式。通过集成一个全局检测器,混合系统显然恢复了这些丢失的信号,并提高了性能,特别是在基准测试中,较短的 AI 输出会削弱时间线索。

结论

新工作中没有直接解决的一个方面是人类作家通过草稿和各种层次的监督来迭代他们的工作的趋势,有时包括外部监督,例如编辑和校对人员的输入,以及可能来自法律部门的建议更改,具体取决于上下文。

即使像一篇深埋的报纸文章这样的简单文件也会涉及多个利益相关者,他们都可能抹去新系统所依赖的怪癖,实际上相当于一种“类似 AI”的辅助草稿过程。

此外,所研究的系统本身就是在这样的作品上进行训练的,并且随着训练数据在训练时的权威性排名的增加,权威性最高或最受尊重的来源可能是最“不自然”的,至少与快速为同事撰写电子邮件相比,而不是为年度股东大会准备年度报告。

一个进一步的、相反的考虑是,多个人贡献的文本内容也可能是最零碎、有缺陷且重复的散文,经常因为没有一个最终的、统一的声音而发展,导致散文中充满零碎的特点。

 

* 作者的原始文本样式从论文中复制;不是我的强调。

作者声称“主要”,而没有列出其他评估指标。

首次发表于 2026 年 1 月 26 日星期一

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai