模型:
ckip-joint/bloom-3b-zh
Version 1.0 / 2023年4月10日
BLOOM-zh是中央研究院中文信息处理研究小组( link )、联发科技研究院( 連結 , 连结 , link )和国家教育研究院( link )之间的联合合作。该模型仅用于非商业研究目的。
BLOOM-zh是具有增强传统中文能力的语言模型。它源于 BLOOMZ 。BLOOM-zh在大量的传统中文文本数据上进行了扩展训练。
此部分提供给从事模型开发的人员的信息。
有关技术规格,请参阅 BLOOM 。
有关环境影响,请参阅 BLOOM 。
此部分回答了模型的预期使用方式,讨论了可能受到模型影响的用户,并描述了被认为超出范围或滥用模型的用途。它为准备使用该模型或受该模型影响的任何人提供信息。
有关模型的用途,请参阅 BLOOM 。
此部分提供了对训练数据的高级概述。对于想要了解模型学习内容基本知识的任何人都是相关的。
我们使用总计130亿个标记的高质量传统中文文本对3B参数模型进行了训练。详细信息请参阅 paper 。
此部分确定了可预见的危害和误解。
有关风险和限制,请参阅 BLOOM 。
此部分列出了BLOOM模型的一些不同方面,重点是那些可能导致模型行为高度变异的方面。
该模型是在传统中文上进行训练的。然而,预训练的权重涵盖了40多种不同的语言。
该模型是在网络爬取数据、新闻文章、小说、知识来源(百科全书、教育领域)和说明书上进行训练的。
此部分提供有关警告和潜在缓解措施的信息。
有关建议,请参阅 BLOOM 。
按照耗费时间和时间顺序排序。
Philipp Ennen、Po-Chun Hsu、Chan-Jan Hsu、Chang-Le Liu、Yen-Chen Wu、Yin-Hsiang Liao、Chin-Tung Lin、Chi-Ming Chung、Yi-Chang Chen、Da-Shan Shiu、Wei-Yun Ma