模型:

fnlp/bart-large-chinese

英文

Chinese BART-Large

新闻

2022年12月30日

更新了CPT和Chinese BART的新版本。在新版本中,我们对以下部分进行了修改:

  • 词汇表 我们用训练数据构建了一个更大的BERT词汇表,大小为51271,其中我们1) 添加了6800多个缺失的汉字(其中大部分是繁体字);2) 移除了冗余的标记(例如,带有##前缀的汉字标记);3) 添加了一些英文标记以减少未登录词。
  • 位置嵌入 我们将max_position_embeddings从512扩展到1024。

我们使用旧版本的检查点和词汇表对新版本的模型进行了初始化。将从旧检查点中找到的标记嵌入复制。其他新增的参数将随机初始化。我们使用批次大小2048、最大序列长度1024、峰值学习率2e-5和预热比率0.1进一步训练新版本的CPT和Chinese BART 50K步。

与先前的检查点相比,结果如下所示:

AFQMC IFLYTEK CSL-sum LCSTS AVG
Previous
bart-base 73.0 60 62.1 37.8 58.23
cpt-base 75.1 60.5 63.0 38.2 59.20
bart-large 75.7 62.1 64.2 40.6 60.65
cpt-large 75.9 61.8 63.7 42.0 60.85
Updataed
bart-base 73.03 61.25 61.51 38.78 58.64
cpt-base 74.40 61.23 62.09 38.81 59.13
bart-large 75.81 61.52 64.62 40.90 60.71
cpt-large 75.97 61.63 63.83 42.08 60.88

结果表明,更新的模型与先前的检查点保持了相对性能。仍然存在一些情况下更新的模型稍逊于以前的模型,这是由以下原因导致的:1)训练额外的几步没有显著的性能改进;2)一些下游任务不受新添加的标记和更长的编码序列影响,但对微调的超参数敏感。

  • 请注意,要使用更新的模型,请更新 modeling_cpt.py (新版本下载 Here )和词汇表(刷新缓存)。

模型描述

这是Chinese BART-Large的实现。

CPT: A Pre-Trained Unbalanced Transformer for Both Chinese Language Understanding and Generation

邵云凡,耿志超,刘一涛,戴俊琦,杨菲,李喆,包虎军,邱熙鹏

Github链接: https://github.com/fastnlp/CPT

用法

>>> from transformers import BertTokenizer, BartForConditionalGeneration, Text2TextGenerationPipeline
>>> tokenizer = BertTokenizer.from_pretrained("fnlp/bart-large-chinese")
>>> model = BartForConditionalGeneration.from_pretrained("fnlp/bart-large-chinese")
>>> text2text_generator = Text2TextGenerationPipeline(model, tokenizer)  
>>> text2text_generator("北京是[MASK]的首都", max_length=50, do_sample=False)
    [{'generated_text': '北 京 是 中 华 人 民 共 和 国 的 首 都'}]

注意:请使用BertTokenizer进行模型词汇处理。不要使用原始的BartTokenizer。

引用

@article{shao2021cpt,
  title={CPT: A Pre-Trained Unbalanced Transformer for Both Chinese Language Understanding and Generation}, 
  author={Yunfan Shao and Zhichao Geng and Yitao Liu and Junqi Dai and Fei Yang and Li Zhe and Hujun Bao and Xipeng Qiu},
  journal={arXiv preprint arXiv:2109.05729},
  year={2021}
}