“中国电信人工智能研究院”官方公众号隆重宣布,其下属的TeleAI团队已成功突破技术壁垒,圆满完成了国内首个依托全国产化万卡集群训练的超大规模万亿参数AI大模型项目,并历史性地公开了首个基于纯粹国产万卡集群与自研深度学习框架打造的千亿参数语义大模型——星辰语义大模型TeleChat2-115B,标志着我国在AI大模型研发领域迈出了国产自主、安全可控的坚实步伐。
这一里程碑式的成就,不仅是中国电信AI研究院科研实力的集中展现,更是我国科技自立自强战略的又一重要成果。TeleChat2-115B的诞生,意味着国产大模型训练技术实现了从依赖进口到全面国产化的根本性转变,为我国AI产业的安全与发展筑起了坚固的基石。
据官方透露,TeleChat2-115B是在中国电信自主研发的天翼云“息壤一体化智算服务平台”与“星海AI平台”的强大支撑下训练完成的。团队通过一系列创新优化策略,在确保模型训练精度的同时,将GPU计算效率提升至前所未有的93%以上,有效训练时长占比更是超过98%,极大地提升了训练效率和稳定性。
为应对超大参数模型训练的挑战,TeleAI创造性地采用了“小模型集成大法”,通过大规模部署并验证不同模型结构的有效性,结合精准的数据配比策略,利用回归预测模型优化数据配置,实现了资源的高效利用与模型性能的显著提升。
在模型后训练阶段,TeleAI团队更是精益求精,不仅针对数学、代码及逻辑推理等特定领域合成了海量问答数据,还采用了先进的监督式微调(SFT)技术与迭代式更新策略,不断提升模型对复杂指令的处理能力和答案的多样性及准确性。通过模型合成、人工标注、拒绝采样等多重手段,成功获取了高质量的SFT训练数据及RM(奖励模型)代表性数据,为模型效果的持续优化奠定了坚实基础。