Cloudflare近日宣布了一项名为“AI迷宫”的新工具,旨在打击未经允许抓取网站数据用于AI训练的爬虫。Cloudflare在博客中表示,当检测到“不当的爬虫行为”时,这项免费且可自主选择加入的工具会诱导爬虫进入一系列链接,这些链接指向由AI生成的虚假页面,从而“减缓、迷惑并浪费”那些恶意行为者的资源。
长期以来,网站一直依赖robots.txt文件来授予或拒绝爬虫的访问权限,但一些AI公司,包括知名如Anthropic和Perplexity AI等,被指控忽视了这一规则。Cloudflare透露,每天处理超过500亿次爬虫请求,尽管已有工具来识别和阻止恶意爬虫,但这往往促使攻击者不断变换策略,形成“一场永无止境的军备竞赛”。
“AI迷宫”的应对策略并非直接阻止爬虫,而是通过让爬虫处理与网站实际数据无关的信息来对抗它们。该工具还充当“下一代诱饵”,吸引AI爬虫不断跟随链接深入虚假页面,而普通人类用户则不会如此行为。这有助于Cloudflare将其标记为不良行为者,并识别出原本难以发现的“新爬虫模式和特征”。据Cloudflare称,这些链接对人类访客是不可见的。
“AI迷宫”的工作原理包括首先生成一系列多样化的主题,然后为每个主题创建内容,以产生更多样化和令人信服的结果。Cloudflare强调,生成的内容真实且与科学事实相关,只是与被抓取的网站无关或不属于其专有信息。
网站管理员可以通过其Cloudflare仪表板的设置中的“机器人管理”部分选择加入“AI迷宫”。Cloudflare表示,这只是“利用生成式AI对抗爬虫的第一步”。公司计划创建“整个链接URL网络”,使陷入其中的爬虫难以识别其为虚假内容。值得注意的是,“AI迷宫”与旨在将爬虫困在AI生成的无用数据中“数月”的工具Nepenthes有相似之处。