模型:
uer/t5-small-chinese-cluecorpussmall
这是由 UER-py 进行预训练的一组中文T5模型,该模型在 this paper 中进行了介绍。
文本到文本转换变压器(T5)利用统一的文本到文本格式,在各种英语自然语言处理任务上取得了最先进的结果。根据他们的工作,我们发布了一系列中文T5模型。
您可以从 UER-py Modelzoo page 下载这组中文T5模型,也可以通过以下链接从HuggingFace获取:
Link | |
---|---|
T5-Small | 12310321 |
T5-Base | 12311321 |
在T5中,输入序列的一部分被称为sentinel token屏蔽。每个sentinel token代表输入序列的一个唯一的屏蔽标记,并应以,等等开始,直到。但是,在Huggingface的托管推理API中,被分成多个部分。因此,我们将替换为extraxxx,并且BertTokenizer将extraxxx视为一个sentinel token。
您可以直接使用这个模型的文本到文本生成pipeline(以T5-Small为例)。
>>> from transformers import BertTokenizer, T5ForConditionalGeneration, Text2TextGenerationPipeline >>> tokenizer = BertTokenizer.from_pretrained("uer/t5-small-chinese-cluecorpussmall") >>> model = T5ForConditionalGeneration.from_pretrained("uer/t5-small-chinese-cluecorpussmall") >>> text2text_generator = Text2TextGenerationPipeline(model, tokenizer) >>> text2text_generator("中国的首都是extra0京", max_length=50, do_sample=False) [{'generated_text': 'extra0 北 extra1 extra2 extra3 extra4 extra5'}]
CLUECorpusSmall 被用作训练数据。
模型是由 UER-py 在 Tencent Cloud 上进行的预训练。我们先以序列长度128进行100万步的预训练,然后再以序列长度512进行额外的25万步的预训练。我们在不同的模型尺寸上使用相同的超参数。