Meta Llama 3.1模型研发揭秘及4代展望

2024年07月29日由 daydream 发表 278 0

Meta的人工智能研究科学家Thomas Scialom在Latent Space播客节目中透露了Llama 3.1的研发思路，并展望了Llama 4的更新方向。

微信截图_20240729113814

Scialom表示，Llama 3.1的参数规模选择考虑了多种因素，包括scaling law、训练时间、GPU和硬件的约束等。他们希望找到有合适推理效率的平衡点，因此将模型规模扩展到405B。

在重新审视Scaling Law时，Scialom指出，Chinchilla定律强调了训练数据token总量的重要性，但为了提高推理表现，他们选择增加训练的token数和训练时长，使模型达到“过度训练”的状态。

关于模型架构，Scialom认为目前的Transformer架构仍然缺乏灵活性，未来可能会有更多的改进。他解释了为什么不使用MoE架构，但也表示正在进行一些工作，可能会在这个超参数上继续探索。

在数据方面，Scialom表示，他们过滤出了高质量的token用于训练，并且完全依靠从Llama 2获得的合成数据进行后训练。他非常看好合成数据的潜力。

对于LLM的评估与改进，Scialom认为这是一个开放的研究问题，目前还没有很好的答案。他们尝试了很多方法进行模型评估，包括奖励模型、model-as-a-judge和使用多样化的提示等。

最后，Scialom透露，Meta已经开始训练Llama 4模型，重点可能围绕agent技术。他们已经在Toolformer等agent工具上进行了一些工作。他强调，如果没有优秀的指令模型，agent的能力也会受到限制。因此，他们将继续专注于agent的构建。

文章来源：https://tech.ifeng.com/c/8bbOAjioe8R

标签：

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇苹果即将推出的AI功能据悉将晚于iOS18的首次发布

下一篇研究发现：人工智能不能提高工作效率

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来

每个人都应该知道的48个AI术语

openwebtext glue shunk031/JGLUE piqa wikitext sciq EleutherAI/lambada_openai facebook/flores

AI热点

行业学习机器学习人工智能公司板人工智能未来机器人视觉识别

AI工具

更多工具 »

火山写作

字节跳动旗下团队推出的免费AI英语写作助手

Stable Diffusion

StabilityAI推出的文本到图像生成AI

GitHub Copilot

GitHub AI编程工具

Adobe Firefly

Adobe最新推出的AI图片生成工具

文心一格

AI艺术和创意辅助平台

本周热门

热门企业

热门职位

Maluuba

20000~40000/月

Unity技术经理

Cisco

25000~30000/月深圳市

高级数据分析工程师

PilotAILabs

30000~60000/年深圳市