OpenAI转录了大量YouTube视频来训练GPT-4

2024年04月07日 由 samoyed 发表 184 0

本周早些时候,《华尔街日报》报道称,人工智能公司在收集高质量训练数据时遇到了困难。今天,《纽约时报》详细报道了一些公司是如何应对这个问题的。毫不奇怪,这涉及到一些处于AI版权法模糊灰色地带的事情。


报道称,OpenAI迫切需要训练数据,因此开发出了其Whisper音频转录模型来克服这一难题,转录了超过一百万小时的YouTube视频,用于训练其最先进的大型语言模型GPT-4。据《纽约时报》报道,该公司知道这种做法在法律上存在疑问,但认为这属于合理使用。OpenAI总裁格雷格·布罗克曼(Greg Brockman)亲自参与了收集用于训练的视频。


STK414_AI_CHATBOT_E


OpenAI发言人林赛·赫尔德(Lindsay Held)表示,该公司为每个模型策划“独特”的数据集,以“帮助它们理解世界”并保持全球研究竞争力。赫尔德补充说,该公司使用“包括公开可用数据和合作伙伴提供的非公开数据在内的多种来源”,并正在研究生成自己的合成数据。


《纽约时报》的报道指出,该公司在2021年耗尽了有用的数据资源,并在耗尽其他资源后讨论了转录YouTube视频、播客和有声读物。当时,该公司已经使用包括来自Github的计算机代码、国际象棋棋谱数据库以及Quizlet上的学生作业内容等数据来训练其模型。


谷歌发言人马特·布莱恩特(Matt Bryant)表示,公司“看到了关于OpenAI活动未经证实的报道”,并补充说,“我们的robots.txt文件和服务条款都禁止未经授权的抓取或下载YouTube内容”,这与谷歌的使用条款相呼应。YouTube首席执行官尼尔·莫汉(Neal Mohan)本周也对OpenAI可能使用YouTube训练其Sora视频生成模型的可能性发表了类似言论。布莱恩特表示,谷歌会采取“技术和法律措施”来防止这种未经授权的使用,“当我们有明确的法律或技术依据时”。


据《纽约时报》的消息来源称,谷歌也收集了YouTube的转录资料。布莱恩特表示,该公司已按照与YouTube创作者达成的协议,利用部分YouTube内容训练其模型。


《纽约时报》报道,谷歌法务部门要求该公司的隐私团队调整政策语言,以扩大其处理消费者数据(如Google Docs等办公工具中的数据)的范围。据报道,新政策故意选择在7月1日发布,以便利用独立日周末假期的干扰来发布。


Meta同样在优质训练数据可用性方面遇到了限制,在《纽约时报》听到的录音中,其AI团队讨论了他们在追赶OpenAI时未经许可使用版权作品的情况。该公司在“几乎浏览了互联网上所有可用的英文书籍、论文、诗歌和新闻文章”后,显然考虑采取一些措施,如购买图书许可证,甚至直接收购大型出版商。此外,由于在剑桥分析公司丑闻之后进行的隐私保护改革,Meta在使用消费者数据方面也受到了限制。


谷歌、OpenAI以及更广泛的AI训练领域正在与迅速消失的模型训练数据作斗争,模型吸收的数据越多,表现就越好。《华尔街日报》本周写道,到2028年,公司可能会超越新内容的产生速度。


《华尔街日报》周一提到的解决该问题的可能方案包括使用它们自己的模型创建的“合成”数据或所谓的“课程学习”来训练模型,后者涉及以有序的方式向模型提供高质量数据,希望它们能够使用更少的信息建立“概念之间的更智能联系”,但这两种方法都尚未得到证实。然而,这些公司的另一种选择是使用他们能够找到的任何数据,无论是否获得了许可,而基于过去一年左右提起的多起诉讼,这种方式的争议相当大。

文章来源:https://www.theverge.com/2024/4/6/24122915/openai-youtube-transcripts-gpt-4-training-data-google
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消