腾讯发布Hunyuan-Large大模型,刷新业界MoE模型新高度

2024年11月05日 由 neo 发表 108 0

今日,腾讯公司正式对外宣布,其最新研发的 Hunyuan-Large 大模型已正式亮相。据官方介绍,该模型是目前业界已经开源的基于 Transformer 架构的最大混合专家(Mixture of Experts, MoE)模型,其总参数高达3890亿(389B),激活参数也达到了惊人的520亿(52B)。

QQ截图20241105164815

为了进一步推动人工智能领域的技术发展,腾讯今日在 Hugging Face 平台上开源了 Hunyuan-Large 的三个版本,分别为 Hunyuan-A52B-Pretrain、Hunyuan-A52B-Instruct 和 Hunyuan-A52B-Instruct-FP8。同时,腾讯还发布了详细的技术报告和训练推理操作手册,旨在帮助开发者更深入地了解该模型的技术特点和操作流程。

Hunyuan-Large 大模型在技术方面展现出了诸多优势。首先,通过采用高质量合成数据增强训练,该模型能够学习到更为丰富的表示特征,有效处理长上下文输入,并更好地泛化到未见数据,从而提升了模型的泛化能力和鲁棒性。

其次,在内存占用和计算开销方面,Hunyuan-Large 采用了创新的KV缓存压缩技术。通过引入分组查询注意力(GQA)和跨层注意力(CLA)策略,该模型显著减少了KV缓存的内存占用和计算成本,进一步提高了推理吞吐和效率。

此外,针对不同专家子模型的学习需求,Hunyuan-Large 还引入了专家特定学习率缩放技术。该技术为不同专家设置不同的学习率,确保每个子模型都能从数据中有效学习,并为整体性能的提升做出贡献。

f251a18e27f4a08bd916

Hunyuan-Large 在长上下文处理能力方面表现出色。预训练模型支持高达256K的文本序列,而Instruct模型则支持128K的文本序列,这一特性使得该模型在处理长上下文任务时具有显著优势。

为了验证 Hunyuan-Large 的实际应用效果和安全性,腾讯在多种语言和任务上进行了广泛的基准测试。测试结果表明,该模型在多个领域和任务上都取得了令人瞩目的成绩,充分展示了其强大的应用潜力和价值。

腾讯此次发布 Hunyuan-Large 大模型,不仅为人工智能领域注入了新的活力,也为广大开发者提供了更为强大的工具和平台。未来,随着该模型的不断优化和完善,相信将在更多领域和场景中发挥重要作用。


文章来源:https://llm.hunyuan.tencent.com/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消