人工智能
Cloudflare AI Bot Block 的影响

Cloudflare AI Bot Block 的影响
最大的互联网基础设施提供商之一 Cloudflare 推出了一项新的 AI Bot Block 功能,该功能被誉为内容创作者和整个网络领域的潜在“游戏规则改变者”。这项创新系统旨在自动检测和缓解不必要的人工智能 (AI) 爬虫程序,从根本上重塑网站所有者与 AI 公司之间的关系。
Cloudflare 现已 第一家阻止人工智能爬虫的互联网基础设施提供商 默认情况下,未经许可或未获得任何补偿即可访问内容。本文将探讨 Cloudflare 的新拦截机制如何运作,分析其对所涵盖网站的深远影响,并探讨其对整个网络生态系统的潜在连锁反应,特别是对新闻出版商、电子商务平台的影响,以及 Cloudflare 竞争对手推出类似系统的可能性。
Cloudflare 的 AI Bot Block 如何运作
核心功能和默认阻止
Cloudflare 已经看到 超过 1 万客户激活了类似功能 2024 年 XNUMX 月,该选项才被启用。但该公司宣布,现在将 默认阻止 AI 机器人 访问其托管的网站。这项新功能使网站所有者能够决定 AI 爬虫是否允许访问其内容,以及 AI 公司如何使用这些内容。这将内容抓取从“选择退出”模式转变为“选择加入”模式,现有客户只需在 Cloudflare 仪表板中单击即可启用此功能。
该功能可供所有客户使用,包括免费计划的客户,因此各种规模的网站都可以使用它。
“按次付费”模式
Cloudflare 新的机器人拦截器的一个主要功能是确保发布者的内容被 AI 公司抓取和使用后获得报酬。这种“按抓取付费”模式旨在 创建新的市场 每当他们的页面被抓取时,出版商可以向人工智能公司要求补偿。
参与实验的网站所有者可以选择让 AI 爬虫以固定费率抓取其网站内容,每次“抓取”都会获得一笔小额报酬。发布商拥有完全控制权, 每个爬虫有三个不同的选项:允许免费访问、按配置的费率付费或完全拒绝访问。定价将由发布商(可以设定费率)和人工智能公司(可以选择是否以这些费率访问网页)共同决定。
该系统与现有的网络基础设施集成,利用 HTTP 状态代码 402(“需要付款”)当AI爬虫请求内容时,它要么通过请求标头提供付款意向,要么收到表示需要付款的402响应。
高级机器人管理工具
Cloudflare 现在提供为客户创建和管理 robots.txt 文件的服务,该文件会自动包含指令,向热门 AI 机器人操作员发出信号,禁止其将内容用于 AI 模型训练。这一点至关重要,因为 robots.txt 是一个“荣誉系统”,而许多网站并未有效利用。其中 排名前 10,000 的域名 在发现 robots.txt 文件的地方,只有大约 14% 具有专门针对 AI 机器人的“允许”或“禁止”指令。
新的选项允许网站所有者 专门在网站的部分区域屏蔽人工智能机器人 通过广告盈利的机器人。激活此设置将屏蔽已验证的、属于 AI 相关类别的机器人,例如 AI 助手、AI 爬虫或存档器,以及一些 未经验证的机器人 行为类似。这项全面的功能适用于所有 Cloudflare 客户,包括免费计划客户。
对 Cloudflare 覆盖站点的影响
重新掌控并重视内容
Cloudflare 的新工具被视为赋予出版商对其内容“应有的控制权”,这对于“互联网在人工智能时代生存”至关重要。传统的互联网模式,即依靠搜索引擎驱动流量和广告收入, 一些人认为它“坏了” 因为支持搜索引擎索引的抓取工具允许人工智能爬虫收集文本、文章和图像等内容来生成答案,而无需将访问者发送到原始来源,从而剥夺了创作者的收入和认可。
出版商纷纷庆祝 Cloudflare 的新计划 这是一次罕见的决定性胜利,意义非凡,它改变了游戏规则,阻止了数百万身份不明的人工智能机器人免费窃取他们的内容。行业领袖们将此描述为重建互联网经济至关重要的第一步,并强调内容创作者理应获得劳动报酬。
应对财务和运营挑战
人工智能机器人广泛抓取内容 重大财务影响破坏公司在创建和发布网络内容方面投入的巨额资金。未经检查的机器人活动还可能 对网站性能产生不利影响,导致服务器超载、网站速度变慢、分析数据偏差以及运营成本增加。
发布商报告了“无效流量”标记的问题,这可能导致主要的供应方平台屏蔽域名,从而造成需求和定价压力的大幅下降。Cloudflare 的解决方案通过有效地阻止未经授权的爬虫程序来解决这个问题,这比 robots.txt 信誉系统不足有了显著的改进。
显著影响和出版商广泛采用
几家大型出版商包括康泰纳仕、《时代》杂志、美联社、《大西洋月刊》、ADWEEK 和《财富》在内的多家媒体已与 Cloudflare 签约,默认屏蔽 AI 爬虫。该功能立即产生了显著效果,一些出版商在激活该功能数小时内就屏蔽了数百万条来自未经授权公司的 AI 请求。
对于许多出版商来说,这样做的必要性显而易见,因为 利用他们的知识产权以及人工智能驱动的搜索对网站流量的负面影响持续升级。2025年初,Open AI的爬虫回归 每抓取 250 个页面,就有一名访客而到了 1,500 月份,他们每抓取 XNUMX 个页面,就会有一名访客返回。
更广泛的网络生态系统的连锁反应和未来
对人工智能开发者和模型训练的影响
默认阻止人工智能爬虫在未经网站所有者许可或支付报酬的情况下访问内容的决定,可能会严重影响人工智能开发者训练模型的能力。这可能会对人工智能模型训练造成短期影响,并可能在长期内影响某些模型的可行性。
OpenAI 拒绝参与 当时 Cloudflare 预览了其默认阻止 AI 爬虫的计划,理由是内容分发网络正在为系统添加中间人。
SEO 的影响和搜索引擎差异化
对于实施 Cloudflare AI 机器人拦截的网站所有者来说,一个关键的考虑因素是了解 AI 爬虫和传统搜索引擎机器人之间的区别。谷歌 不在乎你是否阻止其他爬虫以及人工智能爬虫 服务于完全不同的目的:它们收集信息来训练或更新语言模型,这与搜索引擎机器人索引内容进行排名不同。这意味着通过 Cloudflare 系统阻止 AI 爬虫不会对 SEO 或排名产生负面影响,也就是说 SEO 策略,例如反向链接 仍然很重要。
然而,随着搜索引擎将人工智能功能融入其搜索结果中,更广泛的 SEO 格局正在发生变化。阻止特定机器人 可能会影响网站的可见性 在搜索结果中,这可能会影响可发现性,尤其是在搜索引擎开发人工智能功能的情况下。Cloudflare 方法的关键优势在于其精细的控制,它允许发布商保持来自传统搜索引擎的 SEO 优势,同时选择性地阻止那些无法提供直接流量或排名优势的人工智能爬虫。
特定行业的影响
新闻出版商
随着谷歌搜索流量下降和人工智能聊天机器人日益普及,新闻出版商正面临着生存危机,而该系统为他们提供了一个潜在且亟需的持久系统。它为他们提供了一种将内容货币化的机制,而无需签订通常只对大型出版商有利的一次性许可协议。
电子商务平台
Cloudflare 系统的普遍优势,例如降低服务器负载、防止分析数据偏差以及缓解内容盗窃,普遍适用于任何网站,包括电子商务平台。这些平台高度依赖稳定的性能、准确的用户数据以及防止未经授权的数据抓取。
API服务
数字资产的受控访问和货币化的核心原则虽然目前侧重于网络内容,但从概念上可以扩展到在未来的迭代或相关服务中保护和货币化通过 API 访问的数据。
竞争格局及未来展望
20% 的网络用户使用 Cloudflare,估计大约 全球 16% 的互联网流量直接通过 Cloudflare,使其在实施如此大规模的系统方面具有独特的优势。内容市场的愿景面临挑战,因为说服人工智能公司为其目前免费抓取的内容付费可能很困难。
尽管受到许多人的欢迎,但 Cloudflare 的工具可以被视为部分解决方案,而不是完整的解决方案,重点应该放在 持续加强法律保护以防止人工智能公司窃取内容的需求 遍布整个互联网。
结语
Cloudflare 的 AI Bot Block 代表了一种多层面的方法,旨在赋能内容创作者,并重塑网络出版商与人工智能之间的动态关系。通过提供强大的控制机制和“按次付费”等新的经济模式,它致力于为创作者和人工智能公司建立一个更加公平的互联网环境。尽管面临挑战和更广泛的行业适应需求,但这一举措标志着我们朝着保障网络内容创作的未来迈出了重要一步。












