Cloudflare公开批评Perplexity的抓取策略后 一些人开始为其辩护
当 Cloudflare 周一指责人工智能搜索引擎 Perplexity偷偷抓取网站数据,同时忽略网站阻止它的具体方法时,也有许多人为 Perplexity 辩护。他们认为,Perplexity 违背网站所有者意愿访问网站的行为虽然存在争议,但却是可以接受的。随着人工智能代理在互联网上的泛滥,这场争议必将愈演愈烈:代表用户访问网站的代理应该被视为机器人吗?还是应该被视为提出相同请求的人类?
Cloudflare 以向数百万个网站提供反机器人爬虫和其他网络安全服务而闻名。本质上,Cloudflare 的测试用例包括:创建一个新网站,使用一个从未被任何机器人爬虫爬过的新域名;设置一个 robots.txt 文件,专门屏蔽 Perplexity 已知的 AI 爬虫程序;然后向 Perplexity 询问该网站的内容。Perplexity 回答了这个问题。
Cloudflare 的研究人员发现,当该 AI 搜索引擎的网络爬虫本身被屏蔽时,它使用了“一个旨在模仿 macOS 上 Google Chrome 的通用浏览器”。Cloudflare 首席执行官 Matthew Prince在 X 上发布了这项研究,并写道:“一些所谓的‘信誉良好’的 AI 公司的行为更像朝鲜黑客。是时候点名批评他们,并对他们进行严厉封杀了。”
但许多人不同意普林斯的评估,认为这并非真正的不良行为。在X和Hacker News等网站上为 Perplexity 辩护的人指出,Cloudflare 记录的似乎是,当用户询问特定网站时,AI 会访问该网站。
“如果我作为人类请求一个网站,那么我就应该看到其内容,” Hacker News上的一位用户写道,并补充道,“为什么代表我访问该网站的大语言模型会与我的 Firefox 网络浏览器属于不同的法律类别?”
Perplexity 的一位发言人此前曾否认这些机器人是该公司的,并称 Cloudflare 的博客文章是 Cloudflare 的推销手段。然而,周二,Perplexity又发布了一篇博文为自己辩护(总体上是对 Cloudflare 的攻击),声称这种行为是该公司偶尔使用的第三方服务造成的。
但 Perplexity 帖子的核心内容与其在线辩护者一样值得关注,帖子写道:“自动抓取和用户驱动抓取之间的区别不仅仅是技术层面的,而在于谁能够访问开放网络上的信息。这场争议表明,Cloudflare 的系统从根本上不足以区分合法的人工智能助手和真正的威胁。”
Perplexity 的指控也并不完全公平。Prince 和 Cloudflare 批评 Perplexity 的方法时,提出一个论点是 OpenAI 的做法与 Perplexity 不同。
Cloudflare 写道: “OpenAI 是一家遵循这些最佳实践的领先人工智能公司的典范。他们尊重 robots.txt 文件,不会试图规避 robots.txt 指令或网络级别的阻止。ChatGPT Agent 使用新提出的开放标准 Web Bot Auth 对 http 请求进行签名。”
Web Bot Auth是 Cloudflare 支持的标准,由互联网工程任务组开发,希望创建一种用于识别 AI 代理网络请求的加密方法。
这场争论正值机器人活动重塑互联网之际。正如 TechCrunch 此前报道,机器人试图抓取大量内容来训练人工智能模型,这已成为一种威胁,尤其对小型网站而言。
根据 Imperva 上个月发布的《恶意机器人报告》,互联网历史上机器人活动首次超过人类在线活动,其中人工智能流量占比超过 50%。其中大部分活动来自 LLM。但报告还发现,恶意机器人目前占所有互联网流量的 37%。这些活动包括从持续抓取数据到未经授权的登录尝试等各种行为。
在大语言模型(LLM)出现之前,互联网普遍认为网站可以而且应该屏蔽大多数机器人活动,因为这些机器人活动经常使用验证码和其他服务(例如 Cloudflare)。网站也有明确的动机与特定的良性行为者(例如 Googlebot)合作,通过 robots.txt 指导 Googlebot 哪些内容不该被索引。Google 索引了互联网,而互联网又将流量发送到网站。
如今,大语言模型(LLM)正在吞噬越来越多的流量。Gartner 预测,到 2026 年,搜索引擎流量将下降 25%。目前,人们倾向于在 LLM 对网站最有价值的时候点击这些链接,也就是他们准备进行交易的时候。
但如果人类像科技行业预测的那样,会主动寻求代理——帮我们安排旅行、预订晚餐、购物——那么网站屏蔽这些代理是否会损害他们的商业利益呢?X 上的辩论完美地诠释了这一困境:
“我希望 Perplexity 在我向它发出请求/任务时,能够代表我访问任何公开内容!”有人在 Cloudflare 谴责 Perplexity 的言论中写道。
“如果网站所有者不想要怎么办?他们只是想让你直接访问他们的主页,看看他们的东西。”另一位用户反驳道,并指出创建内容的网站所有者想要的是流量和潜在的广告收入,而不是让 Perplexity 拿走。
“这就是为什么我认为‘代理浏览’无法真正发挥作用——这个问题比人们想象的要难得多。大多数网站所有者会直接屏蔽,”第三位预测道。