在一宗涉及AI版权的案件中,公开了Meta公司内部交流信息,揭示了Meta在开发Llama 3模型时,其高管与研究人员全力以赴,旨在超越OpenAI的GPT-4模型。
Meta生成式AI副总裁阿迈德·阿尔-达莱在2023年10月向研究员雨果·图夫隆发送的信息中表示:“说实话……我们的目标必须是GPT-4。我们即将拥有64000个GPU!我们需要学习如何打造前沿技术,赢得这场竞赛。”
尽管Meta会发布开源AI模型,但其AI领导层更关注击败那些通常不发布模型权重、而是通过API提供服务的竞争对手,如Anthropic和OpenAI。Meta高管与研究人员将Anthropic的Claude和OpenAI的GPT-4视为努力的方向和目标。
法国AI初创公司Mistral是Meta在开源领域的主要竞争对手之一,在内部消息中被多次提及,但语气颇为不屑。阿尔-达莱表示:“Mistral对我们来说不值一提。我们应该能做得更好。”
科技公司目前正竞相推出前沿AI模型,而Meta内部交流信息透露出其AI领导层的竞争之激烈。在多次交流中,Meta的AI领导层谈及他们如何“非常积极地”获取训练Llama所需的数据;有高管甚至向同事表示,“Llama 3是我唯一关心的事”。
此案中的检察官指控Meta高管在急于推出AI模型的过程中,偶尔使用了包括版权书籍在内的数据。
图夫隆提到,用于Llama 2的数据集组合“不佳”,并讨论了Meta如何通过改进数据源组合来提升Llama 3。图夫隆与阿尔-达莱讨论了如何为使用LibGen数据集扫清障碍,该数据集包含来自Cengage Learning、Macmillan Learning、McGraw Hill和Pearson Education的版权作品。
阿尔-达莱询问:“我们是否拥有合适的数据集?是否有什么是你想使用却因某种愚蠢原因而无法使用的?”
Meta首席执行官马克·扎克伯格此前曾表示,他正努力缩小Llama AI模型与OpenAI、谷歌等公司的非开源模型之间的性能差距。内部消息揭示了Meta公司内部面临的巨大压力。
扎克伯格在2024年7月的一封信中表示:“今年,Llama 3与最先进的模型具有竞争力,并在某些领域领先。从明年开始,我们预计未来的Llama模型将成为业界最先进的。”
Meta在2024年4月发布了Llama 3,这款开源AI模型与谷歌、OpenAI和Anthropic的领先非开源模型相抗衡,且性能优于Mistral的开源选项。然而,Meta用于训练模型的数据——据称扎克伯格曾批准使用这些数据,尽管其涉及版权问题——目前正面临多起诉讼的审查。