报告
什么是 AI 阅读?深入了解生成性引用背后的隐藏机制

随着生成式 AI 重塑数字化景观,内容创作和发现的中心出现了一个新的问题:AI 究竟在读什么?一项开创性的研究《什么是 AI 阅读》由 Muck Rack 的 Generative Pulse 发布,分析了超过 100 万个引用,来自主要的 AI 系统,包括 OpenAI 的 ChatGPT(4o 和 4o-mini)、Google 的 Gemini(Flash 和 Pro)以及 Anthropic 的 Claude(Sonnet 和 Haiku),以揭示这些模型在生成响应时使用的链接背后的隐藏动态。
这些发现不仅令人着迷,而且对于新闻、企业沟通、SEO 或品牌战略领域的任何人来说都是变革性的。
引用不仅仅是附加品——它们重塑 AI 行为
对于任何沉浸在 AI 世界中的人来说,启用或禁用引用功能 会改变答案本身。当引用被禁用时,AI 更加依赖静态训练数据。但是,当引用被启用时,模型会生成截然不同的输出,直接受到它们拉取的实时来源的影响。
关键示例:当被问及最差的美国职业棒球大联盟球队时,一个禁用了引用的 AI 提到了 1962 年的纽约大都会队。但是,当引用被启用时,它更新了答案,包括 2024 年芝加哥白袜队,该队创下了 41–121 的记录,并明确引用了 CBS Sports。
赢得媒体的主导地位
超过 95% 的所有引用来源来自 非付费 媒体。这包括:
- 27% 的新闻内容(例如 Reuters、AP、金融时报)
- 18% 的政府/非政府组织网站
- 13% 的学术或研究来源
- 10% 的聚合器/百科平台,如维基百科或 Visual Capitalist
相比之下,付费或广告内容占引用来源的比例不到 5%,这表明 AI 模型系统地偏向 反对 营销驱动的内容。
新鲜度偏见:为什么新内容获胜
新鲜度很重要,特别是对于 OpenAI 的模型。在新闻内容中,56% 的 ChatGPT 引用是在过去 12 个月内发布的,相比之下 Claude 的比例为 36%。这种趋势被称为新鲜度偏见,指的是对新发布的来源的偏好,而不是旧的来源,即使旧的来源可能仍然准确或相关。
在生成式 AI 的背景下,新鲜度偏见意味着语言模型,特别是那些连接到实时数据的模型,如 ChatGPT,更有可能引用和信任新近发布的材料,特别是在响应涉及当前事件、新兴技术或政策变化的查询时。对于时间敏感的提示,如“最新的门诊治疗进展”或“最近的音频录制创新”,模型会大量权重在过去几个月内发布的内容,假设它具有更相关或更新的见解。
这是一个对内容创作者和品牌战略师的关键洞察:如果您的材料过时,即使只过了一年,它就不太可能出现在 AI 生成的答案中。保持内容的新鲜度不仅是良好的 SEO,而且在 AI 时代也是可见性的必要条件。
不同的提示触发不同的来源
AI 模型不会随机引用来源——它们会根据被问的问题类型进行选择。不同的提示风格会导致不同的来源被引用:
- 事实查找和百科全书查询 通常会从静态参考网站如 维基百科 和 大英百科全书 中获取,依赖于已建立但往往较旧的信息。
- 最近事件问题 通常会触发来自主要新闻机构如 AP、路透社 或 Axios 的引用,在那里速度和新鲜度至关重要。
- 建议或意见寻求提示 会将模型转向更动态和对话式的来源,如博客、论坛或平台,如 Reddit 或 Medium。
- 学术或研究导向任务 会导致 AI 引用来自期刊、预印本服务器如 arXiv,或政府支持的存储库,如 PubMed 或 NCBI。
- 创意请求或分步指南 经常会出现用户生成的内容、非正式的教程或社区讨论线程,来自平台如 Quora 或技术论坛。
这种变化意味着问题的表述方式会直接影响哪些域被提升,哪些被忽略。
例如,Claude 不太可能引用主要媒体如路透社,相比 ChatGPT 或 Gemini,Claude 引用路透社的频率 少 50 倍。
权威和域名很重要,但不是统一的
虽然高权威媒体占主导地位,但它们并不是唯一的参与者。只有 15% 的顶级引用来源在多个行业中排名前 10。这意味着 细分领域内容受到奖励。例如:
- 在 金融 领域,来源如 Bankrate 和 NerdWallet 被青睐。
- 在 医疗保健 领域,政府来源如 CDC.gov 和 NIH.gov 占主导地位。
- 在 技术 领域,学习平台如 Udemy、Coursera 和 Medium 占据主导地位。
在 第 15 页 上,一个视觉热力图显示 Claude 展示了最多的领域特异性多样性,经常选择行业独特的来源,而 ChatGPT 和 Gemini 则更依赖于一般媒体。
行业特定洞察:AI 引用的行业分布
金融和保险
- 新闻占比为 37%,高于其他任何行业。
- Claude 的前 10 个来源中 90% 是独特的,表明更深入的细分领域探索。
医疗保健
- 政府和非政府组织网站被引用 18% 的时间,高于跨行业平均值的两倍。
- Gemini 在该行业的来源多样性方面领先。
旅行/航空
- 令人惊讶的是,学术引用几乎不存在(仅 0.7%)。
- 来源如 FAA.gov 和 IATA.org 占主导地位,较少依赖新闻媒体。
零售和电子商务
- 聚合器如维基百科 在这里被引用较少,低于其他行业(36% 对 28%)。
- Claude 引用了最多的细分内容。
媒体/娱乐
-
新闻占比为 37%,领先于其他行业,Claude 经常引用如 TVTechnology 和 Radioking 的细分平台。
技术
- 几乎没有百科全书或学术来源被使用。
- 平台如 Medium、Coursera 和 SproutSocial 占据主导地位,反映出对 实践者基础知识 的偏好。
对沟通和 SEO 团队的影响
本报告的发现表明,生成式引擎优化 (GEO) 正变得与传统 SEO 一样重要。AI 不仅仅是在总结静态数据库——它 实时链接到来源。这些链接受到以下因素的影响:
- 新鲜度:定期更新您的内容。
- 域名权威:建立反向链接和信任。
- 细分领域相关性:为您的行业量身定制内容,而不是一般话题。
- 内容类型:专注于赢得媒体和信息性内容,而不是纯粹的营销页面。
这改变了内容营销人员、公关专业人员和出版商的计算。如果您的目标是出现在 AI 生成的结果中,您必须创建 AI 认为有价值的内容——不仅仅是用户或谷歌。
结论:被 AI 阅读(或忽略)的后果
本报告强调了在线信息呈现方式的根本转变:AI 模型不仅检索内容——它们选择性地策划内容。这种策划正在重新定义数字时代的可见性。
对于出版商、研究人员和品牌来说,被 AI 引用意味着成为下一代搜索的一部分。它将您的内容呈现给可能永远不会访问您的网站,但信任模型引用的用户。被引用的来源被放大。那些没有被引用的来源,无论质量如何,都有可能被完全排除在对话之外。
这种转变创造了新的赢家和输家。高权威媒体和及时的赢得媒体受到青睐。同时,付费内容、更新不频繁的博客或不太知名的声音往往被忽略——不仅被人忽略,也被构建所见内容的系统忽略。
随着 生成式 AI 在知识传递方式中继续发挥核心作用,关键问题不再是如何在搜索中排名,而是如何成为 AI 认为值得引用的内容的一部分。












