OpenAI拟支付数百万美元年费采买新闻许可以训练大模型

2024年01月05日 由 daydream 发表 382 0

随着新闻出版商与AI公司签订协议,让他们的新闻报道用于训练AI模型,像OpenAI这样的企业愿意为版权信息支付的价格逐渐为人所知。


微信截图_20240105101940


根据报道,OpenAI提供每年100万到500万美元的价格来获得训练其AI模型所需的版权新闻文章的许可。这是第一次显露AI公司计划为获得许可材料支付多少费用的端倪。这和近期有报道称苹果正在寻求与媒体公司合作,使用内容进行AI训练,并提供至少5000万美元,以跨越多年期限获取数据的消息并列。


这些数字似乎与一些早期非AI版权协议的金额大致相似。当Meta推出Facebook新闻标签页时,据称提供了每年高达300万美元来获得新闻报道、标题和预览的许可。但目前尚不清楚这些总支付金额是否等同于我们所见到的一些更大的数字。例如,谷歌在2020年宣布,将投资10亿美元与新闻机构合作。在一项新法律的压力下,谷歌最近还同意支付给加拿大出版商每年总计1亿美元,以换取链接到他们的文章。


根据我们所知的训练数据内容,当今的大规模语言模型主要是在互联网上的信息上进行训练的。虽然一些AI模型没有披露它们如何获取训练数据,但通常可以找到使用了哪些数据集或网络爬虫的信息。训练数据集的定价因提供方、大小和数据集内容而异。一些数据提供商,如LAION,是开源的,完全免费,并被像Stable Diffusion这样的模型所使用。AI开发者通常还会设置网络爬虫来获取互联网上的数据以帮助训练他们的模型。(AI开发者还必须雇用人员来审核、标记,有时清理训练数据,这显著增加了运营成本。)


但这种做法现在面临重大挑战。一方面,OpenAI的GPT爬虫已被一些公司封锁访问数据,包括《纽约时报》和The Verge的母公司Vox Media。另一方面,一些组织认为在他们的数据上进行训练构成版权侵犯。《纽约时报》等机构已经起诉OpenAI和微软版权侵权,称ChatGPT和微软的Copilot能够生成与他们的作品几乎一字不差的输出。


通过建立合作关系,AI公司可以避免这些问题,这在过去一年变得更常见。像Axel Springer——Politico和商业内幕的母公司——以及美联社等出版商已与OpenAI签订协议,许可故事来训练像GPT-4这样的模型,并开发用于新闻采集的技术。


OpenAI和苹果并不是唯一希望与新闻机构合作的AI开发者。据报道,谷歌向《纽约时报》、《华尔街日报》和《华盛顿邮报》的高管演示了一个名为Genesis的AI工具,该工具能从事实中生成新闻报道。

文章来源:https://www.theverge.com/2024/1/4/24025409/openai-training-data-lowball-nyt-ai-copyright
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消