ChatGPT的创建者正在训练下一代AI系统,据报道包括GPT-5。
ChatGPT创建者OpenAI发布了一个新的网络爬虫叫做GPTBot,并且给出了阻止它的方法。
ChatGPT是有史以来功能最强大的人工智能系统之一。其背后的公司OpenAI还在继续训练其大型语言模型(LLM),如GPT-3.5和GPT-4。
谷歌和必应等搜索引擎用来扫描网站和索引内容的网络爬虫也被人工智能公司用来训练LLM。这些模型可以从网站的内容以及开发人员选择用来训练它们的任何其他数据中学习。使用网络爬虫可以让LLM在海量数据上进行训练,从而加快这一过程。
OpenAI在其GPTBot文档中指出,“允许GPTBot访问您的网站可以帮助AI模型变得更加准确,并提高其综合能力和安全性。”该公司表示其正在过滤需要付费墙访问、收集个人身份信息、以及有违反OpenAI政策的文本。
开发人员可以选择阻止GPTBot访问他们的网站并使用他们的信息来训练AI系统。
要完全阻止GPTBot访问网站,网站所有者可以将GPTBot令牌添加到网站的robots.txt和“Disallow: /”。
OpenAI 还允许用户自定义 GPTBot 的访问权限,只让它抓取网站的某些部分。要阻止 GPTBot 访问网站的某些部分,请将 GPTBot 添加到网站的 robots.txt和“Allow: /directory-1/" and "Disallow: /directory-2/”中并根据需要进行自定义。
OpenAI 此前并未宣布使用网络爬虫来训练 GPT-3.5(ChatGPT 免费版背后的 LLM)或 GPT-4(ChatGPT Plus 订阅者可使用的最新 LLM,为 Bing AI 提供支持)。
虽然目前还不清楚 GPTBot 是否被用于训练 OpenAI 目前可用的 LLM,但它可能是训练 GPT-5 的网络爬虫。虽然OpenAI尚未宣布GPT-5的发布日期,但新的LLM预计将比GPT-4更强,更大。
自ChatGPT推出以来,OpenAI 已遭遇多起诉讼,指控AI工具正在窃取用户的数据。Stack Overflow、Reddit和Twitter等网站表示,他们计划开始向AI公司收取访问其数据的费用。