英文

中文T5

模型描述

这是由 UER-py 进行预训练的一组中文T5模型,该模型在 this paper 中进行了介绍。

文本到文本转换变压器(T5)利用统一的文本到文本格式,在各种英语自然语言处理任务上取得了最先进的结果。根据他们的工作,我们发布了一系列中文T5模型。

您可以从 UER-py Modelzoo page 下载这组中文T5模型,也可以通过以下链接从HuggingFace获取:

Link
T5-Small 12310321
T5-Base 12311321

在T5中,输入序列的一部分被称为sentinel token屏蔽。每个sentinel token代表输入序列的一个唯一的屏蔽标记,并应以,等等开始,直到。但是,在Huggingface的托管推理API中,被分成多个部分。因此,我们将替换为extraxxx,并且BertTokenizer将extraxxx视为一个sentinel token。

如何使用

您可以直接使用这个模型的文本到文本生成pipeline(以T5-Small为例)。

>>> from transformers import BertTokenizer, T5ForConditionalGeneration, Text2TextGenerationPipeline
>>> tokenizer = BertTokenizer.from_pretrained("uer/t5-small-chinese-cluecorpussmall")
>>> model = T5ForConditionalGeneration.from_pretrained("uer/t5-small-chinese-cluecorpussmall")
>>> text2text_generator = Text2TextGenerationPipeline(model, tokenizer)  
>>> text2text_generator("中国的首都是extra0京", max_length=50, do_sample=False)
    [{'generated_text': 'extra0 北 extra1 extra2 extra3 extra4 extra5'}]

训练数据

CLUECorpusSmall 被用作训练数据。

训练过程

模型是由 UER-py Tencent Cloud 上进行的预训练。我们先以序列长度128进行100万步的预训练,然后再以序列长度512进行额外的25万步的预训练。我们在不同的模型尺寸上使用相同的超参数。