科技巨头未经许可使用YouTube字幕进行AI训练

2024年07月17日 由 samoyed 发表 277 0

据报道,苹果、英伟达和Anthropic被发现利用YouTube字幕来训练AI模型,这违反了YouTube的政策。Proof News和Wired的报道显示,这些公司在没有获得适当许可的情况下,使用了来自数千个YouTube视频的字幕数据集。


image-64


研究发现,苹果、英伟达和Anthropic使用了“YouTube字幕”数据集。该数据集包含来自48,000个频道的173,536个YouTube视频的字幕。这些视频包括Khan Academy和MIT等教育频道,《华尔街日报》等新闻频道,以及MrBeast和Marques Brownlee等顶级创作者的视频。


知名YouTuber对数据滥用作出反应


知名YouTuber Marques Brownlee在X上就此事发表评论称:“苹果从其他公司收集了用于AI的数据。其中一家公司收集了大量来自YouTube视频的数据,包括我的视频。”虽然苹果可能并没有直接抓取数据,但Brownlee指出这个问题将一直存在。


“YouTube字幕”数据集由EleutherAI开发并于2020年发布。它包含5.7GB的数据,其中包括已从平台删除的YouTube视频的字幕。


根据YouTube的条款和条件,通过“自动化手段”访问视频是被禁止的。来自已删除视频的字幕的存在只会加剧这一问题,引发关于隐私和版权侵权的质疑。


同样被卷入调查的Salesforce也承认使用了该数据集。


“研究论文中提到的Pile数据集是在2021年为学术和研究目的而训练的。该数据集是公开可用的,并在许可下发布。”


然而,时至今日,未经许可使用YouTube内容仍具争议。今年4月,YouTube首席执行官尼尔·莫汉表示,使用YouTube视频、字幕或片段进行AI训练是“明确违反”其政策的。但据《纽约时报》报道,OpenAI使用了一百万小时的YouTube视频来训练其GPT-4模型。


AI公司使用互联网内容引发法律纠纷


ChatGPT发布后,AI公司未经授权使用互联网内容的问题日益增多。此外,内容创作者还在起诉Stability AI和Midjourney,指控它们未经许可抓取受版权保护的作品。YouTube的所有者谷歌也面临类似的集体诉讼,称此类法律行动威胁到生成式AI的基础。


在接受《华尔街日报》采访时,OpenAI的首席技术官米拉·穆拉蒂没有详细说明该公司是否使用了社交媒体平台的视频来训练这一新模型。微软AI首席执行官穆斯塔法·苏莱曼则表示,自20世纪90年代以来,基于他所谓的“社会契约”,开放网络上的内容一直被视为合理使用。


文章来源:https://www.cryptopolitan.com/tech-giants-use-youtube-subtitles-for-ai/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
写评论取消
回复取消