模型:

THUDM/glm-large-chinese

英文

GLM是一个使用自回归空白填充目标进行预训练的通用语言模型,可以在各种自然语言理解和生成任务上进行微调。

详细描述请参阅我们的论文:

GLM: General Language Model Pretraining with Autoregressive Blank Infilling (ACL 2022)

Zhengxiao Du*,Yujie Qian*,Xiao Liu,Ming Ding,Jiezhong Qiu,Zhilin Yang,Jie Tang (*:相等的贡献)

在我们的 Github repo 中找到更多示例。

模型描述

glm-large-chinese在 WuDaoCorpora 数据集上进行了预训练。它有24个Transformer层,每个层有1024个隐藏单元和16个注意力头。该模型使用了专为自然语言理解、seq2seq和语言建模设计的自回归空白填充目标进行预训练。

如何使用

请参阅我们的Github库中的 instruction

我们对不同任务使用了三种不同的掩码标记:[MASK]用于短空白填充,[sMASK]用于句子填充,[gMASK]用于从左到右的生成。您可以在 here 中找到有关不同掩码的示例。预测始终以特殊的<|startofpiece|>令牌开始,以<|endofpiece|>令牌结束。

引用

如果您发现这个代码对您的研究有用,请引用我们的论文:

@article{DBLP:conf/acl/DuQLDQY022,
  author    = {Zhengxiao Du and
               Yujie Qian and
               Xiao Liu and
               Ming Ding and
               Jiezhong Qiu and
               Zhilin Yang and
               Jie Tang},
  title     = {{GLM:} General Language Model Pretraining with Autoregressive Blank Infilling},
  booktitle = {Proceedings of the 60th Annual Meeting of the Association for Computational
               Linguistics (Volume 1: Long Papers), {ACL} 2022, Dublin, Ireland,
               May 22-27, 2022},
  pages     = {320--335},
  publisher = {Association for Computational Linguistics},
  year      = {2022},
}