模型:
hfl/cino-small-v2
多语种预训练语言模型(如mBERT、XLM-R)提供了多语种和跨语言的语言理解能力。近年来,在构建多语种预训练语言模型方面取得了快速进展。然而,在构建中国少数民族预训练语言模型方面缺乏相关贡献,这也妨碍了研究人员构建强大的自然语言处理系统。
为了填补中国少数民族预训练语言模型的空白,哈尔滨工业大学和科大讯飞联合实验室(HFL)提出了CINO(Chinese-miNOrity pre-trained language model),它基于XLM-R进行构建,并使用中国少数民族语料进行额外的预训练,包括:
请访问我们的GitHub资源库查看更多详情(中文): https://github.com/ymcui/Chinese-Minority-PLM
您还可能对以下内容感兴趣:
中国MacBERT: https://github.com/ymcui/MacBERT 中国BERT系列: https://github.com/ymcui/Chinese-BERT-wwm 中国ELECTRA: https://github.com/ymcui/Chinese-ELECTRA 中国XLNet: https://github.com/ymcui/Chinese-XLNet 知识蒸馏工具包-TextBrewer: https://github.com/airaria/TextBrewer
HFL的更多资源: https://github.com/ymcui/HFL-Anthology