这家声称代理了约20%互联网流量的公司,推出了一款新工具,可以阻止所有AI机器人抓取网站的文本。Cloudflare表示,该工具对所有客户开放,包括免费套餐的用户。
随着生成式AI的兴起,公司需要内容来训练聊天机器人。许多公司正在使用网络爬虫从网站上抓取文本进行分析(比如ChatGPT正在抓取你的Reddit帖子)。一些公司公开诚实地使用网络爬虫机器人,但也有一些公司并非如此。
Cloudflare去年9月推出了一项功能,允许用户阻止“恶意”的AI网络爬虫,即那些未经许可抓取网站内容的爬虫。当然,一些公司找到了绕过这个限制的方法,即让爬虫伪装成合法的爬虫。这就是为什么这款新工具会阻止所有AI爬虫,包括那些遵循正确抓取协议的爬虫。
据Cloudflare称,2024年6月,AI机器人访问了通过Cloudflare保护的顶级一百万“互联网属性”中的约39%,但其中只有不到3%的属性采取了阻止AI机器人的措施。Cloudflare表示,其网站上抓取量最大的四个爬虫分别是Bytespider、Amazonbot、ClaudeBot和GPTBot。
如果您是 Cloudflare 用户,使用该工具很简单。只需在设置中单击“安全”和“机器人”。从那里,您会看到一个标有“AI 抓取工具和爬虫”的切换按钮。打开它,AI 机器人将无法再访问您的内容。