中国电信开源了星辰语义大模型TeleChat-7B版本,提供了1T清洗数据集,并计划在1月20日开源12B版本模型,与更多开发者共建开源大模型生态。
星辰语义大模型是一个大语言模型,使用1.5万亿Tokens中英文语料训练。它首创了四大技术,降低了AI大模型的幻觉率40%,使其更能理解语境,提供相关的答案。
星辰语义大模型在中电信内部和外部客户的多个场景中发挥作用,如行文写作、代码编程、网络故障分析、企业经营分析、政务公开咨询、民生诉求接待等,其生成字数、采纳率、覆盖率、理解准确率都达到了较高水平。
中电信在2023数字科技生态大会上发布了星辰语义大模型,并公布了开源开放的时间表。据报道,本次开源的 TeleChat-7B版本包括对话模型TeleChat-7B-bot和huggingface格式的权重文件,以及7B模型的int8和int4 量化版本。
星辰语义大模型已适配华为昇腾AI基础软硬件,支持Atlas 300I pro推理卡和Atlas训练服务器,用户可用昇思MindSpore和PyTorch框架进行模型训练和推理。
Github开源地址: https://github.com/Tele-AI/Telechat
Gitee地址: https://gitee.com/Tele-AI/tele-chat