Meta的人工智能研究科学家Thomas Scialom在Latent Space播客节目中透露了Llama 3.1的研发思路,并展望了Llama 4的更新方向。
Scialom表示,Llama 3.1的参数规模选择考虑了多种因素,包括scaling law、训练时间、GPU和硬件的约束等。他们希望找到有合适推理效率的平衡点,因此将模型规模扩展到405B。
在重新审视Scaling Law时,Scialom指出,Chinchilla定律强调了训练数据token总量的重要性,但为了提高推理表现,他们选择增加训练的token数和训练时长,使模型达到“过度训练”的状态。
关于模型架构,Scialom认为目前的Transformer架构仍然缺乏灵活性,未来可能会有更多的改进。他解释了为什么不使用MoE架构,但也表示正在进行一些工作,可能会在这个超参数上继续探索。
在数据方面,Scialom表示,他们过滤出了高质量的token用于训练,并且完全依靠从Llama 2获得的合成数据进行后训练。他非常看好合成数据的潜力。
对于LLM的评估与改进,Scialom认为这是一个开放的研究问题,目前还没有很好的答案。他们尝试了很多方法进行模型评估,包括奖励模型、model-as-a-judge和使用多样化的提示等。
最后,Scialom透露,Meta已经开始训练Llama 4模型,重点可能围绕agent技术。他们已经在Toolformer等agent工具上进行了一些工作。他强调,如果没有优秀的指令模型,agent的能力也会受到限制。因此,他们将继续专注于agent的构建。