在接下来的几周内,Reddit将开始阻止大多数自动机器人访问其公共数据。你将需要达成许可协议,就像谷歌和OpenAI所做的那样,才能使用Reddit内容进行模型训练和其他商业用途。
虽然这在技术上已经是Reddit的政策,但该公司现在通过更新其robots.txt文件来执行这一政策,robots.txt文件是互联网的核心部分,规定了网络爬虫如何被允许访问一个网站。“这是对那些没有与我们达成协议的人的信号,他们不应该访问Reddit数据,”该公司的首席法律官本·李(Ben Lee)告诉我。“这也是对不良行为者的一个信号,robots.txt中的‘允许’一词并不意味着,也从未意味着他们可以按自己的意愿使用数据。”
robots.txt最近被称为“运行互联网的文本文件”。自从它在网络早期被构想出来以来,该文件主要决定了像谷歌这样的搜索引擎是否可以爬取一个网站来为其结果编制索引。在过去的20年左右的时间里,谷歌通过发送流量来换取爬取权限的“互惠互利”模式对所有人都适用。然后,AI公司开始收集他们能在网上找到的所有数据来训练他们的模型。