腾讯发布自研深度思考模型混元T1正式版

2025年03月24日 由 daydream 发表 953 0

腾讯近日推出了自研的深度思考模型——混元T1正式版。该模型以吐字快、秒回以及擅长超长文处理为特点,是腾讯自研的强推理模型。目前,混元T1已上线腾讯云,并计划在腾讯元宝进行灰度上线。


微信截图_20250324114252


混元T1正式版通过大规模强化学习,并在数学、逻辑推理、科学和代码等理科难题上进行了专项优化,从而进一步提升了其推理能力。在多项benchmark测试中,混元T1表现出色。例如,在大语言模型评估增强数据集MMLU-PRO中,它取得了87.2分的成绩,仅次于领先模型。同时,在CEval、AIME、Zebra Logic等中英文知识及竞赛级数学、逻辑推理的公开基准测试中,混元T1的成绩也达到了业界领先推理模型的水平。


此外,混元T1在多项对齐任务、指令跟随任务和工具利用任务中展现出了强大的适应性。这得益于其沿用的混元Turbo S的创新架构,即Hybrid-Mamba-Transformer融合模式。这一架构是工业界首次将混合Mamba架构无损应用于超大型推理模型,有效降低了传统Transformer结构的计算复杂度,减少了KV-Cache的内存占用,从而显著降低了训练和推理成本。


在超长文本推理领域,混元T1也展现出了独特优势。基于其出色的长文捕捉能力,混元T1能有效解决长文推理中常见的上下文丢失和长距离信息依赖问题。同时,混合Mamba架构针对长序列处理进行了专项优化,使得在相近的激活参数量下,混元T1的解码速度提升了2倍,同时大幅降低了资源消耗。


目前,混元T1已在腾讯云官网上线,提供了API使用服务。输入价格为每百万tokens 1元,输出价格为每百万tokens 4元。

文章来源:https://mp.weixin.qq.com/s/38ilIogkFK8tbgRFDSXdSw
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消