Cloudflare公司正式推出了一项创新的无代码功能,旨在有效抵御人工智能开发者对网站内容的非法抓取行为。这一功能被无缝整合进了Cloudflare标志性的内容分发网络(CDN)服务中,该服务已广泛应用于全球众多网站,以显著提升用户访问速度。Cloudflare宣布,无论是免费还是付费用户,均可享受到这一强大的抓取防护功能。
在当前的AI时代,许多前沿的人工智能企业依赖公共网络上的海量内容来训练其庞大的语言模型。尽管像OpenAI、Google等公司已为网站运营者提供了退出抓取的选择权,但并非所有大型语言模型(LLM)开发者都如此贴心,这恰恰是Cloudflare此次推出抓取防护工具的初衷所在。
此功能的核心在于运用先进的人工智能技术,精准识别并拦截自动化的内容提取行为。Cloudflare表示,其系统能够智能识别那些即便费尽心机伪装成正常浏览器,也试图为LLM训练项目抓取数据的机器人。
Cloudflare工程师在最新博客文章中披露:“我们注意到,有些机器人运营商试图通过伪造用户代理信息来伪装成真实用户。经过长期监控,我们自豪地宣布,我们的全球机器学习模型总能精准捕捉这类伪装行为。”
尤为值得一提的是,Cloudflare已成功识别并阻止了一个专为Perplexity AI(一家资金实力雄厚的搜索引擎新贵)抓取内容的机器人。据《连线》杂志上月报道,该机器人通过巧妙伪装,使其请求看起来与普通用户访问无异,给网站运营者带来了极大的困扰。
Cloudflare为其处理的每笔网站访问赋予了一个1到99的评分,分数越低,则代表该请求由机器人发出的可能性越高。据悉,为Perplexity AI服务的那个机器人发出的请求,评分始终维持在30分以下。
“当不法分子试图大规模抓取网站信息时,他们往往会使用一系列我们能够迅速识别的工具和技术框架”Cloudflare工程师进一步解释道“针对每一个我们捕捉到的‘指纹’,我们都会借助Cloudflare庞大的网络(该网络每秒处理请求量超过5700万次)来评估其可信度。”
为了应对日益复杂多变的AI抓取机器人技术和新出现的爬虫,Cloudflare承诺将持续升级这一功能。作为升级计划的一部分,公司还将推出一款便捷工具,让网站运营者能够及时反馈他们可能遭遇的新型机器人信息,共同维护网络生态的健康发展。