谷歌发布Google-Extended,网站发布者可选择拒绝数据训练

2023年09月30日 由 daydream 发表 418 0

谷歌刚刚宣布为网站发布者提供了一种选择,可以选择不让谷歌使用他们的数据来训练公司的AI模型,同时仍然可以使用谷歌搜索。这个名为Google-Extended的新工具允许网站继续被像Googlebot这样的网络爬虫抓取和索引,同时避免其数据在AI模型在不断发展的过程中被用来进行训练。


微信截图_20230930133105

公司表示,Google-Extended将允许发布者"管理他们的网站是否帮助改进Bard和Vertex AI生成API",并补充说网站发布者可以使用切换按钮来"控制对站点内容的访问"。谷歌在7月份确认,它正使用从互联网上公开可用的数据对其AI聊天机器人Bard进行训练。


Google-Extended可以通过robots.txt文件进行配置,这个文件告知网络爬虫是否可以访问特定的网站。谷歌指出,"随着AI应用的扩大",他们将继续探索"供网站发布者进行选择和控制的其他可机读方法",并表示将很快有更多信息分享。


已经有很多网站开始封锁OpenAI用于抓取数据和训练ChatGPT的网络爬虫,其中包括《纽约时报》、CNN、路透社和Medium。然而,如何封锁谷歌一直存在争议。毕竟,网站不能完全封锁谷歌的网络爬虫,否则它们将无法在搜索中被索引。这导致一些网站,如《纽约时报》,通过更新其服务条款以禁止公司使用其内容进行AI训练,从而通过法律手段封锁谷歌。

文章来源:https://www.theverge.com/2023/9/28/23894779/google-ai-extended-training-data-toggle-bard-vertex
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消