昆仑万维近日宣布,旗下百亿级大语言模型「天工」Skywork-13B 系列开源,同时开源了 600GB、150B Tokens 的中文语料数据集 Skypile/Chinese-Web-Text-150B,是目前最大的开源中文数据集之一。此外,「天工」Skywork-13B 系列大模型还将全面开放商用,开发者无需申请,即可商用。
「天工」Skywork-13B系列目前包括两个130亿参数的模型:Skywork-13B-Base 模型和 Skywork-13B-Math模型,它们在CEVAL、CMMLU、MMLU、GSM8K 等几大评估基准中超越了 LLaMA2-13B 等开源大模型。在中文文本创作领域的评测中,它们在科技、金融、政务、企业服务、文创、游戏等领域表现不错。
「天工」Skywork-13B系列大模型和中文语料数据集的开源地址如下:
Skywork-13B 下载地址(Model Scope):https://modelscope.cn/organization/skywork
Skywork-13B 下载地址(Github):https://github.com/SkyworkAI/Skywork