本周早些时候,一项调查详细披露了苹果和其他科技巨头利用YouTube字幕来训练其AI模型的情况,这其中包括了来自MKBHD、Mr. Beast等频道的超过17万段视频。随后,苹果利用这一数据集训练了其开源的OpenELM模型,该模型于今年4月发布。
然而,苹果现已证实,OpenELM并未为其任何AI或机器学习功能(包括Apple Intelligence)提供支持。
苹果表示,创建OpenELM模型是为了向研究界做出贡献,并推动开源大型语言模型的发展。过去,苹果的研究人员曾将OpenELM描述为“最先进的开源语言模型”。
据苹果介绍,OpenELM仅用于研究目的,并未用于为其Apple Intelligence功能提供支持。该模型已作为开源项目发布,并广泛可用,包括在苹果的机器学习研究网站上。
由于OpenELM并未作为Apple Intelligence的一部分被使用,这意味着“YouTube字幕”数据集也并未用于支持Apple Intelligence。过去,苹果曾表示,Apple Intelligence模型是在“授权数据”上训练的,这些数据包括为增强特定功能而选定的数据,以及由公司网络爬虫收集的公开可用数据。
最后,苹果还表示,公司没有计划开发OpenELM模型的新版本。
正如《连线》杂志本周早些时候报道的那样,包括苹果、Anthropic和NVIDIA在内的多家公司都使用了这个“YouTube字幕”数据集来训练他们的AI模型。该数据集是非营利组织EleutherAI发布的一个名为“The Pile”的更大规模数据集的一部分。