模型:
ckip-joint/bloom-1b1-zh
版本 2.0 / 2023年4月10日
BLOOM-zh是中央研究院CKIP实验室( link )、联发科技研究部( 連結 , 连结 , link )和国家教育研究院( link )的共同合作项目。该模型仅用于非商业研究目的。
BLOOM-zh是一个具有增强型繁体中文功能的语言模型,它源自于 BLOOMZ 。BLOOM-zh在大量繁体中文文本数据上进行了扩展训练。
本节提供给从事模型开发的人员参考的相关信息。
有关技术规格,请参阅 BLOOM 。
有关环境影响,请参阅 BLOOM 。
本节回答了模型的预期使用方式,讨论了可能使用该模型的用户(包括受模型影响的人员),并描述了被认为是超出范围或滥用模型的使用方式。它提供给考虑使用模型或受模型影响的任何人员的信息。
有关模型的使用方法,请参阅 BLOOM 。
本节提供了训练数据的概述,对于想要了解模型正在学习的基本知识的任何人都是相关的。
我们将1B1参数模型训练在总计115亿个标记的高质量繁体中文文本上。详细信息请参见 paper 。
本节列出可预见的风险和误解。
有关风险和限制,请参阅 BLOOM 。
本节列出了BLOOM模型的一些不同方面,重点是那些可能导致模型行为高度变化的方面。
该模型是基于繁体中文训练的,但预训练的权重捕捉了超过40种不同的语言。
该模型是基于网络爬取的数据、新闻文章、小说、知识源(百科全书、教育领域)和指令进行训练的。
本节提供有关警告和潜在缓解措施的信息。
有关推荐事项,请参阅 BLOOM 。
按照时间顺序和所花时间的多少进行排序。
Philipp Ennen, Po-Chun Hsu, Chan-Jan Hsu, Chang-Le Liu, Yen-Chen Wu, Yin-Hsiang Liao, Chin-Tung Lin, Chi-Ming Chung, Yi-Chang Chen, Da-Shan Shiu, Wei-Yun Ma