模型:
hfl/cino-base-v2
多语言预训练语言模型,如mBERT、XLM-R,提供了多语言和跨语言理解能力。在最近几年中,我们已经看到了在建立多语言PLMs方面的快速进展。然而,在建立中国少数民族语言的PLMs方面,缺乏贡献,这妨碍了研究人员构建强大的NLP系统。
为了解决缺乏中国少数民族PLMs的问题,哈工大与讯飞研究院联合实验室(HFL)提出了CINO(中国少数民族预训练语言模型),该模型是基于XLM-R构建的,并使用中国少数民族语料进行了额外的预训练,包括:
更多详细信息请参阅我们的GitHub存储库(中文): https://github.com/ymcui/Chinese-Minority-PLM
您可能还对以下内容感兴趣:
中国MacBERT: https://github.com/ymcui/MacBERT 中国BERT系列: https://github.com/ymcui/Chinese-BERT-wwm 中国ELECTRA: https://github.com/ymcui/Chinese-ELECTRA 中国XLNet: https://github.com/ymcui/Chinese-XLNet 知识蒸馏工具包-TextBrewer: https://github.com/airaria/TextBrewer
HFL的更多资源: https://github.com/ymcui/HFL-Anthology