模型:
THUDM/glm-2b
GLM 是一个通用语言模型,使用自回归的空白填充目标进行预训练,并可以在各种自然语言理解和生成任务上进行微调。
请参阅我们的论文,以了解有关 GLM 的详细描述:
GLM: General Language Model Pretraining with Autoregressive Blank Infilling (ACL 2022)
都征晓,钱玉杰,刘晓,丁铭,邱杰中,杨芝霖,唐杰(*: 同等贡献)
在我们的 Github repo 中查找更多示例。
glm-2b 在 Pile 数据集上预训练。它具有36个Transformer层,每层的隐藏大小为4096,每个层有64个注意力头。该模型使用了设计用于自然语言理解、seq2seq和语言建模的自回归空白填充目标进行预训练。从我们的 repo 中获取更多详细信息。
请参考我们 Github 仓库中的 instruction 。
我们针对不同的任务使用三种不同的掩码标记: [MASK] 用于短空白填充, [sMASK] 用于句子填充, [gMASK] 用于从左到右的生成。您可以从 here 中找到有关不同掩码的示例。预测始终以特殊的 <|startofpiece|> 标记开头,并以 <|endofpiece|> 标记结尾。
如果您发现这个代码对您的研究有用,请引用我们的论文:
@article{DBLP:conf/acl/DuQLDQY022, author = {Zhengxiao Du and Yujie Qian and Xiao Liu and Ming Ding and Jiezhong Qiu and Zhilin Yang and Jie Tang}, title = {{GLM:} General Language Model Pretraining with Autoregressive Blank Infilling}, booktitle = {Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), {ACL} 2022, Dublin, Ireland, May 22-27, 2022}, pages = {320--335}, publisher = {Association for Computational Linguistics}, year = {2022}, }