人工智能
Cloudflare 的 AI 机器人阻塞的影响

Cloudflare 的 AI 机器人阻塞的影响
Cloudflare,一家最大的互联网基础设施提供商,推出了一个新的 AI 机器人阻塞功能,被誉为内容创作者和更广泛的网络的潜在“游戏规则改变者”。这个创新系统旨在自动检测和缓解不想要的人工智能(AI)爬虫,从根本上重新定义了网站所有者和 AI 公司之间的关系。
Cloudflare 现在是第一个互联网基础设施提供商,通过默认阻塞未经许可或补偿访问内容的 AI 爬虫。默认阻塞 AI 爬虫访问内容。这个文章将调查 Cloudflare 的新阻塞机制如何运作,检查它们对所覆盖网站的深远影响,并探索对网络生态系统的潜在涟漪效应,特别是对于新闻出版商、电子商务平台和类似系统从 Cloudflare 的竞争对手出现的可能性。
Cloudflare 的 AI 机器人阻塞如何运作
核心功能和默认阻塞
Cloudflare 已经看到 超过 1 万个客户激活了一个类似的功能,当它在 2024 年 7 月成为一个选项时。但是,该公司宣布,它现在将 默认阻塞 AI 机器人访问其托管的网站。这个新功能使网站所有者能够决定是否允许 AI 爬虫访问其内容以及如何使用它。这种变化将内容抓取从“选择退出”变为“选择加入”模式,现有的客户可以在其 Cloudflare 仪表板中单击一下即可启用此功能。
此功能对所有客户开放,包括免费计划的客户,使其可用于所有大小的网站。
“每次爬取付费”模型
Cloudflare 的新机器人阻塞器的一个主要功能是确保出版商在其内容被 AI 公司抓取和使用时获得报酬。这个“每次爬取付费”模型旨在 创建一个新的市场,在这个市场中,出版商可以要求 AI 公司在每次爬取其页面时支付报酬。
网站所有者在实验中可以选择允许 AI 爬虫逐一抓取其网站,以固定的费率,每次“爬取”都收取微支付。出版商具有完全的控制权,对于每个爬虫,有 三个不同的选项:允许免费访问、要求以配置的费率支付或完全拒绝访问。价格将由出版商(可以设置费率)和 AI 公司(可以选择是否以这些费率访问网页)共同决定。
该系统与现有的 Web 基础设施集成,利用 HTTP 状态代码 402(“需要付款”)。当 AI 爬虫请求内容时,它要么通过请求头提供付款意图,要么收到 402 响应,指示需要付款。
高级机器人管理工具
Cloudflare 现在提供为客户创建和管理 robots.txt 文件的服务,自动包含指令,指示流行的 AI 机器人操作员不要将内容用于 AI 模型训练。这很重要,因为 robots.txt 是一个“荣誉制度”,许多网站没有有效地利用它。在 前 10,000 个域名 中,发现了 robots.txt 文件,但只有大约 14% 的文件包含针对 AI 机器人特别的“允许”或“禁止”指令。
一个新的选项允许网站所有者 在其网站的特定部分阻塞 AI 机器人,这些部分通过广告进行盈利。激活此设置将阻塞分类为 AI 相关类别(例如 AI 助手、AI 爬虫或存档器)的已验证机器人,以及一系列 未验证机器人,这些机器人表现相似。这个全面的功能对所有 Cloudflare 客户开放,包括免费计划的客户。
对 Cloudflare 覆盖的网站的影响
重新控制和评估内容
Cloudflare 的新工具被视为为出版商提供了“他们应得的”对其内容的控制权,这对于“互联网在 AI 时代的生存”至关重要。传统的互联网模型,即搜索引擎驱动流量和广告收入,被认为是“破碎的”,因为使搜索引擎索引成为可能的抓取器也是允许 AI 爬虫收集内容(如文本、文章和图像)以生成答案而不将访问者发送到原始来源的抓取器,从而剥夺创作者的收入和认可。
出版商庆祝 Cloudflare 的新计划,这是一个罕见的决定性胜利和防止其内容被数百万未经识别的 AI 机器人免费掠夺的游戏规则改变者。行业领袖将其描述为重建可行的互联网经济的第一步,强调内容创作者理应获得报酬。
解决财务和运营挑战
AI 机器人广泛抓取内容对公司在创建和发布网络内容方面的巨大投资具有重大财务影响,破坏了这些投资。未受控制的机器人活动也可能对网站性能产生有害影响,导致服务器过载、网站速度变慢、分析数据失真和运营成本增加。
出版商报告了“无效流量”标志的问题,这可能导致主要的供应侧平台阻塞域名,导致需求和定价压力大幅下降。Cloudflare 的解决方案通过有效地阻止未经授权的爬虫来解决这个问题,这比 robots.txt 荣誉制度有了显著改进。
证实的影响和广泛的出版商采用
几家大型出版商,包括康泰纳仕、时代、美联社、大西洋、ADWEEK 和财富,已与 Cloudflare 合作,通过默认方式阻塞 AI 爬虫。立即的影响是巨大的,一些出版商在激活功能后几个小时内就阻止了数百万个来自未经授权公司的 AI 请求。
对于许多出版商来说,需要这一点是明确的,因为他们的知识产权被剥削,而 AI 驱动的搜索对网站流量的负面影响不断升级。2025 年初,Open AI 的爬虫返回 每 250 页抓取返回 1 位访客,而到 6 月,他们每 1,500 页抓取返回 1 位访客。
更广泛的网络生态系统涟漪效应和未来
对 AI 开发者和模型训练的影响
默认阻塞未经许可或补偿访问内容的 AI 爬虫的决定可能会显著影响 AI 开发者训练其模型的能力。这可能会对 AI 模型训练产生短期影响,并可能在长期内影响某些模型的可行性。
OpenAI 拒绝参与,当 Cloudflare预览其计划默认阻塞 AI 爬虫时,理由是内容分发网络正在将中间人添加到系统中。
SEO 影响和搜索引擎区别
对于网站所有者实施 Cloudflare 的 AI 机器人阻塞的一个关键考虑因素是理解 AI 爬虫和传统搜索引擎机器人之间的区别。Google 不在乎你是否阻塞其他爬虫,而 AI 爬虫 服务于一个完全不同的目的:它们收集信息以训练或更新语言模型,而不是像搜索引擎机器人那样索引内容以进行排名。这意味着通过 Cloudflare 的系统阻塞 AI 爬虫不应对 SEO 或排名产生负面影响,这意味着 SEO 策略,如反向链接 仍将很重要。
然而,SEO 的更广泛格局正在随着搜索引擎将 AI 能力集成到其结果中而演变。阻塞特定机器人 可能会影响网站在搜索结果中的可见性,可能会影响可发现性,特别是当搜索引擎开发 AI 驱动的功能时。Cloudflare 方法的主要优势在于其细粒度的控制,允许出版商在选择性地阻塞不提供直接流量或排名利益的 AI 爬虫的同时保持来自传统搜索引擎的 SEO 利益。
行业特定影响
新闻出版商
该系统为苦苦挣扎于生存问题的新闻出版商提供了一个潜在的、可持续的系统,因为 Google 搜索流量下降,AI 聊天机器人越来越受欢迎。它为他们提供了一种机制,使他们能够在不签订通常只惠及大型出版商的单独许可协议的情况下将内容货币化。
电子商务平台
Cloudflare 系统的普遍好处,例如减少服务器负载、防止分析数据失真以及防止内容盗窃,对任何网站(包括电子商务平台)都是适用的。这些平台严重依赖于一致的性能、准确的用户数据以及防止未经授权的数据抓取。
API 服务
对数字资产的受控访问和货币化的核心原则,尽管目前专注于网络内容,但在未来可能会扩展到保护和货币化通过 API 访问的数据。
竞争格局和未来展望
Cloudflare 被 20% 的网络使用,据估计,大约 16% 的全球互联网流量直接通过 Cloudflare,这使得 Cloudflare 能够实施如此大规模的系统。内容市场的愿景面临挑战,因为说服 AI 公司为他们目前免费抓取的内容付费可能会很困难。
虽然受到许多人的欢迎,但 Cloudflare 的工具可以被视为一个部分解决方案,而不是一个完整的解决方案,重点应该放在 整个互联网上更强有力的法律保护,以防止 AI 公司盗窃内容 的需要上。
结论
Cloudflare 的 AI 机器人阻塞代表了一种多方面的方法,用于赋予内容创作者权力,并重新塑造网络出版商和 AI 之间的动态。通过提供强大的控制机制和新的经济模型,如每次爬取付费,它旨在为创作者和 AI 公司建立一个更加公平的互联网。虽然面临挑战和更广泛的行业适应的需要,但这一举措标志着保护网络上内容创作未来的一项重大步骤。
