模型:

IDEA-CCNL/Erlangshen-MegatronBert-1.3B

英文

Erlangshen-MegatronBert-1.3B

简介

2021登顶FewCLUE和ZeroCLUE,处理NLU任务,开源时最大的中文BERT模型

它在2021年登顶FewCLUE和ZeroCLUE基准测试中,解决了NLU任务,是公开发布时最大的中文BERT模型。

模型分类

需求 Demand 任务 Task 系列 Series 模型 Model 参数 Parameter 额外 Extra
通用 General 自然语言理解 NLU 二郎神 Erlangshen MegatronBERT 1.3B 中文 Chinese

模型信息

以编码器结构为主的双向语言模型,专注于解决各种自然语言理解任务。我们参考了 Megatron-LM 的工作,使用32张A100,花费了14天的时间在WuDao语料库(180 GB版本)上训练了10亿级别的BERT模型。另外,考虑到中文语法和大规模训练的难度,我们采用了四种预训练策略来改进BERT模型:1)整词掩码(WWM),2)基于知识的动态遮盖(KDM),3)句子顺序预测(SOP),4)层前归一化(Pre-LN)。

这个双向语言模型基于编码器结构,专注于解决各种自然语言理解任务。我们参考了 Megatron-LM 的工作,使用32张A100,花费了14天时间在WuDao语料库(180 GB版本)上训练了一个10亿级别的BERT模型。考虑到中文语法和大规模训练的困难,我们采用了四个预训练过程来改进BERT模型:1)整词掩码(WWM),2)基于知识的动态掩码(KDM),3)句子顺序预测(SOP),4)层前归一化(Pre-LN)。

成就

1. 2021年11月10日,Erlangshen-MegatronBert-1.3B在FewCLUE基准测试中取得第一名。其中,在CHIDF(成语填空)和TNEWS(新闻分类)子任务中的表现优于人类表现。此外,它在CHIDF(成语填空)、CSLDCP(学科文献分类)和OCNLI(自然语言推理)任务中也名列前茅。 2. 2022年1月24日,Erlangshen-MegatronBert-1.3B在ZeroCLUE基准测试中取得第一名。具体到各个子任务,我们在CSLDCP(主题文献分类)、TNEWS(新闻分类)、IFLYTEK(应用描述分类)、CSL(抽象关键词识别)和CLUEWSC(参考消歧)任务中均取得了第一名。 3. 2022年7月10日,Erlangshen-MegatronBert-1.3B在CLUE基准测试的语义匹配任务中取得第一名。

1. 2021年11月10日,Erlangshen-MegatronBert-1.3B在FewCLUE基准测试中取得第一名。其中,在CHIDF(成语填空)和TNEWS(新闻分类)子任务中的表现优于人类表现。此外,它在CHIDF(成语填空)、CSLDCP(学科文献分类)和OCNLI(自然语言推理)任务中也名列前茅。 2. 2022年1月24日,Erlangshen-MegatronBert-1.3B在ZeroCLUE基准测试中取得第一名。具体到各个子任务,我们在CSLDCP(主题文献分类)、TNEWS(新闻分类)、IFLYTEK(应用描述分类)、CSL(抽象关键词识别)和CLUEWSC(参考消歧)任务中均取得了第一名。 3. 2022年7月10日,Erlangshen-MegatronBert-1.3B在CLUE基准测试的语义匹配任务中取得第一名。

下游效果

模型 afqmc tnews iflytek ocnli cmnli wsc csl
roberta-wwm-ext-large 0.7514 0.5872 0.6152 0.777 0.814 0.8914 0.86
Erlangshen-MegatronBert-1.3B 0.7608 0.5996 0.6234 0.7917 0.81 0.9243 0.872

使用方法

from transformers import MegatronBertConfig, MegatronBertModel
from transformers import BertTokenizer

tokenizer = BertTokenizer.from_pretrained("IDEA-CCNL/Erlangshen-MegatronBert-1.3B")
config = MegatronBertConfig.from_pretrained("IDEA-CCNL/Erlangshen-MegatronBert-1.3B")
model = MegatronBertModel.from_pretrained("IDEA-CCNL/Erlangshen-MegatronBert-1.3B")

引用

如果您在您的工作中使用了我们的模型,请引用我们的 论文

如果您在您的工作中使用该资源,请引用我们的 paper

@article{fengshenbang,
  author    = {Jiaxing Zhang and Ruyi Gan and Junjie Wang and Yuxiang Zhang and Lin Zhang and Ping Yang and Xinyu Gao and Ziwei Wu and Xiaoqun Dong and Junqing He and Jianheng Zhuo and Qi Yang and Yongfeng Huang and Xiayu Li and Yanghan Wu and Junyu Lu and Xinyu Zhu and Weifeng Chen and Ting Han and Kunhao Pan and Rui Wang and Hao Wang and Xiaojun Wu and Zhongshen Zeng and Chongpei Chen},
  title     = {Fengshenbang 1.0: Being the Foundation of Chinese Cognitive Intelligence},
  journal   = {CoRR},
  volume    = {abs/2209.02970},
  year      = {2022}
}

也可以引用我们的 网站

也可以引用我们的 website

@misc{Fengshenbang-LM,
  title={Fengshenbang-LM},
  author={IDEA-CCNL},
  year={2021},
  howpublished={\url{https://github.com/IDEA-CCNL/Fengshenbang-LM}},
}