英文

CINO: 中国少数民族预训练模型

多语言预训练语言模型,如mBERT、XLM-R,为语言理解提供了多语言和跨语言能力。近年来在构建多语言PLM方面取得了快速进展。然而,在构建中国少数民族PLM方面缺乏贡献,这妨碍了研究人员构建强大的自然语言处理系统。

为解决中国少数民族PLM的缺失,哈工大和讯飞研究院联合实验室(HFL)提出了CINO(Chinese-miNOrity pre-trained language model),该模型基于XLM-R,并使用中国少数民族语料库进行额外的预训练,例如:

  • 中文(zh)
  • 藏语(bo)
  • 蒙语(mn)
  • 维吾尔语(ug)
  • 哈萨克语(kk)
  • 朝鲜语(ko)
  • 壮语
  • 粤语(yue)

请阅读我们的GitHub存储库以了解更多详细信息(中文): https://github.com/ymcui/Chinese-Minority-PLM

您可能也对以下内容感兴趣:

Chinese MacBERT: https://github.com/ymcui/MacBERT Chinese BERT系列: https://github.com/ymcui/Chinese-BERT-wwm Chinese ELECTRA: https://github.com/ymcui/Chinese-ELECTRA Chinese XLNet: https://github.com/ymcui/Chinese-XLNet 知识蒸馏工具包-TextBrewer: https://github.com/airaria/TextBrewer

HFL的更多资源: https://github.com/ymcui/HFL-Anthology