Cloudflare推出“AI迷宫”对抗网络爬虫

2025年03月24日 由 daydream 发表 728 0

Cloudflare近日宣布了一项名为“AI迷宫”的新工具,旨在打击未经允许抓取网站数据用于AI训练的爬虫。Cloudflare在博客中表示,当检测到“不当的爬虫行为”时,这项免费且可自主选择加入的工具会诱导爬虫进入一系列链接,这些链接指向由AI生成的虚假页面,从而“减缓、迷惑并浪费”那些恶意行为者的资源。


微信截图_20250324090730


长期以来,网站一直依赖robots.txt文件来授予或拒绝爬虫的访问权限,但一些AI公司,包括知名如Anthropic和Perplexity AI等,被指控忽视了这一规则。Cloudflare透露,每天处理超过500亿次爬虫请求,尽管已有工具来识别和阻止恶意爬虫,但这往往促使攻击者不断变换策略,形成“一场永无止境的军备竞赛”。


“AI迷宫”的应对策略并非直接阻止爬虫,而是通过让爬虫处理与网站实际数据无关的信息来对抗它们。该工具还充当“下一代诱饵”,吸引AI爬虫不断跟随链接深入虚假页面,而普通人类用户则不会如此行为。这有助于Cloudflare将其标记为不良行为者,并识别出原本难以发现的“新爬虫模式和特征”。据Cloudflare称,这些链接对人类访客是不可见的。


“AI迷宫”的工作原理包括首先生成一系列多样化的主题,然后为每个主题创建内容,以产生更多样化和令人信服的结果。Cloudflare强调,生成的内容真实且与科学事实相关,只是与被抓取的网站无关或不属于其专有信息。


网站管理员可以通过其Cloudflare仪表板的设置中的“机器人管理”部分选择加入“AI迷宫”。Cloudflare表示,这只是“利用生成式AI对抗爬虫的第一步”。公司计划创建“整个链接URL网络”,使陷入其中的爬虫难以识别其为虚假内容。值得注意的是,“AI迷宫”与旨在将爬虫困在AI生成的无用数据中“数月”的工具Nepenthes有相似之处。

文章来源:https://www.theverge.com/news/634345/cloudflare-ai-labyrinth-web-scraping-bots-training-data
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消