模型:
THUDM/glm-10b
GLM是一个通用语言模型,它是使用自回归空白填充目标进行预训练的,并且可以用于各种自然语言理解和生成任务的微调。
请参考我们的论文以获取有关GLM的详细描述:
GLM: General Language Model Pretraining with Autoregressive Blank Infilling (ACL 2022)
Zhengxiao Du*,Yujie Qian*,Xiao Liu,Ming Ding,Jiezhong Qiu,Zhilin Yang,Jie Tang (*:等同贡献)
在我们的 Github repo 中找到更多示例。
glm-10b在 Pile 数据集上进行了预训练。它有48个Transformer层,每个层有4096个隐藏单元和64个注意头。该模型使用针对自然语言理解、seq2seq和语言建模设计的自回归空白填充目标进行了预训练。从我们的 repo 中找到更多细节。
请参考我们Github仓库中的 instruction 。
我们使用三种不同的掩码标记来处理不同的任务:[MASK]用于短文本填充,[sMASK]用于句子填充,[gMASK]用于从左到右的生成。您可以在 here 中找到有关不同掩码的示例。预测始终以特殊的<|startofpiece|>标记开头,并以<|endofpiece|>标记结尾。
如果您发现此代码对您的研究有用,请引用我们的论文:
@article{DBLP:conf/acl/DuQLDQY022, author = {Zhengxiao Du and Yujie Qian and Xiao Liu and Ming Ding and Jiezhong Qiu and Zhilin Yang and Jie Tang}, title = {{GLM:} General Language Model Pretraining with Autoregressive Blank Infilling}, booktitle = {Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), {ACL} 2022, Dublin, Ireland, May 22-27, 2022}, pages = {320--335}, publisher = {Association for Computational Linguistics}, year = {2022}, }