Cloudflare推出“AI迷宫”对抗网络爬虫

2025年03月24日由 daydream 发表 1059 0

Cloudflare近日宣布了一项名为“AI迷宫”的新工具，旨在打击未经允许抓取网站数据用于AI训练的爬虫。Cloudflare在博客中表示，当检测到“不当的爬虫行为”时，这项免费且可自主选择加入的工具会诱导爬虫进入一系列链接，这些链接指向由AI生成的虚假页面，从而“减缓、迷惑并浪费”那些恶意行为者的资源。

微信截图_20250324090730

长期以来，网站一直依赖robots.txt文件来授予或拒绝爬虫的访问权限，但一些AI公司，包括知名如Anthropic和Perplexity AI等，被指控忽视了这一规则。Cloudflare透露，每天处理超过500亿次爬虫请求，尽管已有工具来识别和阻止恶意爬虫，但这往往促使攻击者不断变换策略，形成“一场永无止境的军备竞赛”。

“AI迷宫”的应对策略并非直接阻止爬虫，而是通过让爬虫处理与网站实际数据无关的信息来对抗它们。该工具还充当“下一代诱饵”，吸引AI爬虫不断跟随链接深入虚假页面，而普通人类用户则不会如此行为。这有助于Cloudflare将其标记为不良行为者，并识别出原本难以发现的“新爬虫模式和特征”。据Cloudflare称，这些链接对人类访客是不可见的。

“AI迷宫”的工作原理包括首先生成一系列多样化的主题，然后为每个主题创建内容，以产生更多样化和令人信服的结果。Cloudflare强调，生成的内容真实且与科学事实相关，只是与被抓取的网站无关或不属于其专有信息。

网站管理员可以通过其Cloudflare仪表板的设置中的“机器人管理”部分选择加入“AI迷宫”。Cloudflare表示，这只是“利用生成式AI对抗爬虫的第一步”。公司计划创建“整个链接URL网络”，使陷入其中的爬虫难以识别其为虚假内容。值得注意的是，“AI迷宫”与旨在将爬虫困在AI生成的无用数据中“数月”的工具Nepenthes有相似之处。

文章来源：https://www.theverge.com/news/634345/cloudflare-ai-labyrinth-web-scraping-bots-training-data

标签：

Cloudflare AI

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 OpenAI推出新一代转录与语音生成AI模型

下一篇 Google推出Gemini实时AI视频功能

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术