Meta Llama 3.1模型研发揭秘及4代展望

2024年07月29日 由 daydream 发表 152 0

Meta的人工智能研究科学家Thomas Scialom在Latent Space播客节目中透露了Llama 3.1的研发思路,并展望了Llama 4的更新方向。


微信截图_20240729113814


Scialom表示,Llama 3.1的参数规模选择考虑了多种因素,包括scaling law、训练时间、GPU和硬件的约束等。他们希望找到有合适推理效率的平衡点,因此将模型规模扩展到405B。


在重新审视Scaling Law时,Scialom指出,Chinchilla定律强调了训练数据token总量的重要性,但为了提高推理表现,他们选择增加训练的token数和训练时长,使模型达到“过度训练”的状态。


关于模型架构,Scialom认为目前的Transformer架构仍然缺乏灵活性,未来可能会有更多的改进。他解释了为什么不使用MoE架构,但也表示正在进行一些工作,可能会在这个超参数上继续探索。


在数据方面,Scialom表示,他们过滤出了高质量的token用于训练,并且完全依靠从Llama 2获得的合成数据进行后训练。他非常看好合成数据的潜力。


对于LLM的评估与改进,Scialom认为这是一个开放的研究问题,目前还没有很好的答案。他们尝试了很多方法进行模型评估,包括奖励模型、model-as-a-judge和使用多样化的提示等。


最后,Scialom透露,Meta已经开始训练Llama 4模型,重点可能围绕agent技术。他们已经在Toolformer等agent工具上进行了一些工作。他强调,如果没有优秀的指令模型,agent的能力也会受到限制。因此,他们将继续专注于agent的构建。

文章来源:https://tech.ifeng.com/c/8bbOAjioe8R
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消