THUDM/glm-10b | ATYUN.COM 官网-人工智能教程资讯全方位服务平台

模型:

THUDM/glm-10b

任务:

特征提取

类库:

PyTorch Transformers

语言:

其他:

glm custom_code thudm

预印本库:

arxiv:2103.10360

模型介绍文件清单

英文

GLM是一个通用语言模型，它是使用自回归空白填充目标进行预训练的，并且可以用于各种自然语言理解和生成任务的微调。

请参考我们的论文以获取有关GLM的详细描述:

GLM: General Language Model Pretraining with Autoregressive Blank Infilling (ACL 2022)

Zhengxiao Du*，Yujie Qian*，Xiao Liu，Ming Ding，Jiezhong Qiu，Zhilin Yang，Jie Tang (*：等同贡献)

在我们的 Github repo 中找到更多示例。

模型描述

glm-10b在 Pile 数据集上进行了预训练。它有48个Transformer层，每个层有4096个隐藏单元和64个注意头。该模型使用针对自然语言理解、seq2seq和语言建模设计的自回归空白填充目标进行了预训练。从我们的 repo 中找到更多细节。

如何使用

请参考我们Github仓库中的 instruction 。

我们使用三种不同的掩码标记来处理不同的任务：[MASK]用于短文本填充，[sMASK]用于句子填充，[gMASK]用于从左到右的生成。您可以在 here 中找到有关不同掩码的示例。预测始终以特殊的<|startofpiece|>标记开头，并以<|endofpiece|>标记结尾。

引用

如果您发现此代码对您的研究有用，请引用我们的论文：

@article{DBLP:conf/acl/DuQLDQY022,
  author    = {Zhengxiao Du and
               Yujie Qian and
               Xiao Liu and
               Ming Ding and
               Jiezhong Qiu and
               Zhilin Yang and
               Jie Tang},
  title     = {{GLM:} General Language Model Pretraining with Autoregressive Blank Infilling},
  booktitle = {Proceedings of the 60th Annual Meeting of the Association for Computational
               Linguistics (Volume 1: Long Papers), {ACL} 2022, Dublin, Ireland,
               May 22-27, 2022},
  pages     = {320--335},
  publisher = {Association for Computational Linguistics},
  year      = {2022},
}

作者:

Data Mining Research Group at Tsinghua University

数据集大小:

18.41 GB