Google在隐私政策中增加了一些关于人工智能的内容
2023年07月06日 由 Samoyed 发表
805235
0
现在越来越无法避免生成性人工智能的数据采集了。
对那些希望远离生成式人工智能的人来说,这是糟糕的一周。就在OpenAI被起诉窃取个人数据来训练ChatGPT和DALL-E的几天之后,Google通过其隐私政策确认,它可以并且确实在公共数据中提取信息来训练自己的人工智能系统。任何人公开发布的内容Google都是可以使用的,如果所有人都可以看到它,那么Google就会从中提取信息。
Google在周末悄悄更新了其隐私政策。页面很长,但如果你往下滚动,会看到有一个关于人工智能的小段落,它写道:“Google使用信息来改进我们的服务,并开发有益于用户和公众的新产品、功能和技术。例如,我们使用公开可得的信息来训练Google的人工智能模型,并构建产品和功能,如Google Translate、Bard和Cloud AI功能。”公开可得的信息包括社交媒体、博客、新闻资料、评论、应用程序评价、网站概况、Cookies和其他网络活动。如果某个政府机构或司法机构通过在线数据库向公众提供某些信息,这些信息也是可以被提取的。
在其旧的隐私政策中,Google只承认收集和使用公开可得的数据来训练其“语言”模型,比如PaLM。PaLM是一个强大的语言模型,为Google的各种产品提供动力。PaLM所进行的每个“决策”过程都基于海量数据,Google在网络的各种地方发现这些数据。现在,它明确表示这些数据可以并将被用于训练Google Translate、Bard和其自家的Cloud AI套件。
这个更新引起了关于生成式人工智能工具应该如何被训练的更加热烈的讨论。互联网用户越来越意识到生成式人工智能的开发者正在未经同意就利用他们的数据,并对此感到不满。虽然像OpenAI被指控的使用私人医疗数据这样的极端案例是罕见的,但一些人担心即使这些数据是公开的,让他们对其为所欲为也可能存在隐患。这个问题已经变得非常迫切,以至于国会议员和国际隐私专业人士协会(IAPP)已经开始调查生成式人工智能模型在美国的训练和使用方式。
来源:https://www.extremetech.com/internet/google-adds-scraping-public-content-for-ai-training-to-its-privacy-policy