腾讯发布Hunyuan-Large大模型，刷新业界MoE模型新高度

2024年11月05日由 neo 发表 238 0

今日，腾讯公司正式对外宣布，其最新研发的 Hunyuan-Large 大模型已正式亮相。据官方介绍，该模型是目前业界已经开源的基于 Transformer 架构的最大混合专家（Mixture of Experts, MoE）模型，其总参数高达3890亿（389B），激活参数也达到了惊人的520亿（52B）。

QQ截图20241105164815

为了进一步推动人工智能领域的技术发展，腾讯今日在 Hugging Face 平台上开源了 Hunyuan-Large 的三个版本，分别为 Hunyuan-A52B-Pretrain、Hunyuan-A52B-Instruct 和 Hunyuan-A52B-Instruct-FP8。同时，腾讯还发布了详细的技术报告和训练推理操作手册，旨在帮助开发者更深入地了解该模型的技术特点和操作流程。

Hunyuan-Large 大模型在技术方面展现出了诸多优势。首先，通过采用高质量合成数据增强训练，该模型能够学习到更为丰富的表示特征，有效处理长上下文输入，并更好地泛化到未见数据，从而提升了模型的泛化能力和鲁棒性。

其次，在内存占用和计算开销方面，Hunyuan-Large 采用了创新的KV缓存压缩技术。通过引入分组查询注意力（GQA）和跨层注意力（CLA）策略，该模型显著减少了KV缓存的内存占用和计算成本，进一步提高了推理吞吐和效率。

此外，针对不同专家子模型的学习需求，Hunyuan-Large 还引入了专家特定学习率缩放技术。该技术为不同专家设置不同的学习率，确保每个子模型都能从数据中有效学习，并为整体性能的提升做出贡献。

f251a18e27f4a08bd916

Hunyuan-Large 在长上下文处理能力方面表现出色。预训练模型支持高达256K的文本序列，而Instruct模型则支持128K的文本序列，这一特性使得该模型在处理长上下文任务时具有显著优势。

为了验证 Hunyuan-Large 的实际应用效果和安全性，腾讯在多种语言和任务上进行了广泛的基准测试。测试结果表明，该模型在多个领域和任务上都取得了令人瞩目的成绩，充分展示了其强大的应用潜力和价值。

腾讯此次发布 Hunyuan-Large 大模型，不仅为人工智能领域注入了新的活力，也为广大开发者提供了更为强大的工具和平台。未来，随着该模型的不断优化和完善，相信将在更多领域和场景中发挥重要作用。

文章来源：https://llm.hunyuan.tencent.com/

标签：

腾讯

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 Anthropic发布全新Haiku 3.5模型，升级Claude AI展现卓越编程能力

下一篇 OpenAI推出“预测输出”功能，加速GPT语言模型文本处理

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来