模型:
hfl/cino-large-v2
多语言预训练语言模型(如mBERT,XLM-R)提供了语言理解的多语言和跨语言能力。我们近年来在构建多语言PLMs方面取得了快速进展。然而,目前对中国少数民族语言构建PLMs的贡献较少,这妨碍了研究人员构建强大的自然语言处理系统。
为填补中国少数民族PLMs的空白,哈尔滨工业大学和讯飞研究院联合实验室(HFL)提出了CINO(Chinese-miNOrity pre-trained language model),它是基于XLM-R的,并额外使用中国少数民族语料进行预训练,如
请阅读我们的GitHub存储库了解更多细节(中文): https://github.com/ymcui/Chinese-Minority-PLM
您可能还对以下内容感兴趣,
中国MacBERT: https://github.com/ymcui/MacBERT 中国BERT系列: https://github.com/ymcui/Chinese-BERT-wwm 中国ELECTRA: https://github.com/ymcui/Chinese-ELECTRA 中国XLNet: https://github.com/ymcui/Chinese-XLNet 知识蒸馏工具包-TextBrewer: https://github.com/airaria/TextBrewer
HFL的更多资源: https://github.com/ymcui/HFL-Anthology