英文

BLOOM-zh

增强型繁体中文BLOOM语言模型

模型卡片

版本 2.0 / 2023年4月10日

BLOOM-zh是中央研究院CKIP实验室( link )、联发科技研究部( 連結 , 连结 , link )和国家教育研究院( link )的共同合作项目。该模型仅用于非商业研究目的。

目录

  • 模型详细信息
  • 使用方法
  • 训练数据
  • 风险与限制
  • 推荐事项
  • 模型卡片作者
  • 模型详细信息

    BLOOM-zh是一个具有增强型繁体中文功能的语言模型,它源自于 BLOOMZ 。BLOOM-zh在大量繁体中文文本数据上进行了扩展训练。

    基础

    • 开发者:联发科技研究部
    • 模型类型:基于Transformer的语言模型
    • 版本:2.0.0
    • 语言:多种语言;详见训练数据
    • 许可证:联发科技研究部许可证 ( link ) 和RAIL许可证v1.0 ( link )
    • 预计发布日期:2023年4月10日(星期一)
    • 提问邮箱:info@mtkresearch.com
    • 论文: https://arxiv.org/abs/2303.04715
    • 引用格式:联发科技研究部:增强型繁体中文BLOOM语言模型。国际会议,2023年2月。
    • 贡献者组织:
      • 联发科技研究部
      • 中央研究院
      • 国家教育研究院

    技术规格

    本节提供给从事模型开发的人员参考的相关信息。

    有关技术规格,请参阅 BLOOM

    环境影响

    有关环境影响,请参阅 BLOOM

    使用方法

    本节回答了模型的预期使用方式,讨论了可能使用该模型的用户(包括受模型影响的人员),并描述了被认为是超出范围或滥用模型的使用方式。它提供给考虑使用模型或受模型影响的任何人员的信息。

    有关模型的使用方法,请参阅 BLOOM

    训练数据

    本节提供了训练数据的概述,对于想要了解模型正在学习的基本知识的任何人都是相关的。

    我们将1B1参数模型训练在总计115亿个标记的高质量繁体中文文本上。详细信息请参见 paper

    风险与限制

    本节列出可预见的风险和误解。

    有关风险和限制,请参阅 BLOOM

    因素

    本节列出了BLOOM模型的一些不同方面,重点是那些可能导致模型行为高度变化的方面。

    • 该模型是基于繁体中文训练的,但预训练的权重捕捉了超过40种不同的语言。

    • 该模型是基于网络爬取的数据、新闻文章、小说、知识源(百科全书、教育领域)和指令进行训练的。

    推荐事项

    本节提供有关警告和潜在缓解措施的信息。

    有关推荐事项,请参阅 BLOOM

    模型卡片作者

    按照时间顺序和所花时间的多少进行排序。

    Philipp Ennen, Po-Chun Hsu, Chan-Jan Hsu, Chang-Le Liu, Yen-Chen Wu, Yin-Hsiang Liao, Chin-Tung Lin, Chi-Ming Chung, Yi-Chang Chen, Da-Shan Shiu, Wei-Yun Ma