模型:
hfl/cino-large
多语言预训练语言模型,如mBERT、XLM-R,为语言理解提供了多语言和跨语言能力。近年来在构建多语言PLM方面取得了快速进展。然而,在构建中国少数民族PLM方面缺乏贡献,这妨碍了研究人员构建强大的自然语言处理系统。
为解决中国少数民族PLM的缺失,哈工大和讯飞研究院联合实验室(HFL)提出了CINO(Chinese-miNOrity pre-trained language model),该模型基于XLM-R,并使用中国少数民族语料库进行额外的预训练,例如:
请阅读我们的GitHub存储库以了解更多详细信息(中文): https://github.com/ymcui/Chinese-Minority-PLM
您可能也对以下内容感兴趣:
Chinese MacBERT: https://github.com/ymcui/MacBERT Chinese BERT系列: https://github.com/ymcui/Chinese-BERT-wwm Chinese ELECTRA: https://github.com/ymcui/Chinese-ELECTRA Chinese XLNet: https://github.com/ymcui/Chinese-XLNet 知识蒸馏工具包-TextBrewer: https://github.com/airaria/TextBrewer
HFL的更多资源: https://github.com/ymcui/HFL-Anthology