OpenAI转录了大量YouTube视频来训练GPT-4

2024年04月07日由 samoyed 发表 294 0

本周早些时候，《华尔街日报》报道称，人工智能公司在收集高质量训练数据时遇到了困难。今天，《纽约时报》详细报道了一些公司是如何应对这个问题的。毫不奇怪，这涉及到一些处于AI版权法模糊灰色地带的事情。

报道称，OpenAI迫切需要训练数据，因此开发出了其Whisper音频转录模型来克服这一难题，转录了超过一百万小时的YouTube视频，用于训练其最先进的大型语言模型GPT-4。据《纽约时报》报道，该公司知道这种做法在法律上存在疑问，但认为这属于合理使用。OpenAI总裁格雷格·布罗克曼（Greg Brockman）亲自参与了收集用于训练的视频。

STK414_AI_CHATBOT_E

OpenAI发言人林赛·赫尔德（Lindsay Held）表示，该公司为每个模型策划“独特”的数据集，以“帮助它们理解世界”并保持全球研究竞争力。赫尔德补充说，该公司使用“包括公开可用数据和合作伙伴提供的非公开数据在内的多种来源”，并正在研究生成自己的合成数据。

《纽约时报》的报道指出，该公司在2021年耗尽了有用的数据资源，并在耗尽其他资源后讨论了转录YouTube视频、播客和有声读物。当时，该公司已经使用包括来自Github的计算机代码、国际象棋棋谱数据库以及Quizlet上的学生作业内容等数据来训练其模型。

谷歌发言人马特·布莱恩特（Matt Bryant）表示，公司“看到了关于OpenAI活动未经证实的报道”，并补充说，“我们的robots.txt文件和服务条款都禁止未经授权的抓取或下载YouTube内容”，这与谷歌的使用条款相呼应。YouTube首席执行官尼尔·莫汉（Neal Mohan）本周也对OpenAI可能使用YouTube训练其Sora视频生成模型的可能性发表了类似言论。布莱恩特表示，谷歌会采取“技术和法律措施”来防止这种未经授权的使用，“当我们有明确的法律或技术依据时”。

据《纽约时报》的消息来源称，谷歌也收集了YouTube的转录资料。布莱恩特表示，该公司已按照与YouTube创作者达成的协议，利用部分YouTube内容训练其模型。

《纽约时报》报道，谷歌法务部门要求该公司的隐私团队调整政策语言，以扩大其处理消费者数据（如Google Docs等办公工具中的数据）的范围。据报道，新政策故意选择在7月1日发布，以便利用独立日周末假期的干扰来发布。

Meta同样在优质训练数据可用性方面遇到了限制，在《纽约时报》听到的录音中，其AI团队讨论了他们在追赶OpenAI时未经许可使用版权作品的情况。该公司在“几乎浏览了互联网上所有可用的英文书籍、论文、诗歌和新闻文章”后，显然考虑采取一些措施，如购买图书许可证，甚至直接收购大型出版商。此外，由于在剑桥分析公司丑闻之后进行的隐私保护改革，Meta在使用消费者数据方面也受到了限制。

谷歌、OpenAI以及更广泛的AI训练领域正在与迅速消失的模型训练数据作斗争，模型吸收的数据越多，表现就越好。《华尔街日报》本周写道，到2028年，公司可能会超越新内容的产生速度。

《华尔街日报》周一提到的解决该问题的可能方案包括使用它们自己的模型创建的“合成”数据或所谓的“课程学习”来训练模型，后者涉及以有序的方式向模型提供高质量数据，希望它们能够使用更少的信息建立“概念之间的更智能联系”，但这两种方法都尚未得到证实。然而，这些公司的另一种选择是使用他们能够找到的任何数据，无论是否获得了许可，而基于过去一年左右提起的多起诉讼，这种方式的争议相当大。

文章来源：https://www.theverge.com/2024/4/6/24122915/openai-youtube-transcripts-gpt-4-training-data-google

标签：

OpenAI

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 Meta要求AI生成的内容带有“Made with AI”标签

下一篇 YouTube警告：使用其视频训练OpenAI模型违反规定

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来