模型:
ybelkada/t5-11b-sharded
Text-To-Text Transfer Transformer (T5) 的开发人员提出:
使用T5,我们建议将所有自然语言处理任务重新定义为统一的文本到文本格式,其中输入和输出始终是文本字符串,而不是只能输出类别标签或输入文本片段的BERT风格模型。我们的文本到文本框架允许我们在任何自然语言处理任务上使用相同的模型、损失函数和超参数。
T5-11B是具有110亿参数的检查点。
开发人员在 blog post 中提到该模型:
我们的文本到文本框架允许我们在任何自然语言处理任务上使用相同的模型、损失函数和超参数,包括机器翻译、文档摘要、问答和分类任务(如情感分析)。我们甚至可以将T5应用于回归任务,通过训练它预测数字的字符串表示形式而不是数字本身。
详细信息请参见 blog post 和 research paper 。
需要更多信息。
需要更多信息。
需要更多信息。
该模型在 Colossal Clean Crawled Corpus (C4) 上进行预训练, research paper 和T5在同一上下文中开发和发布。
该模型在一个多任务混合的无监督任务(1.)和监督任务(2.)的条件下进行了预训练。因此,以下数据集用于(1.)和(2.):
在 abstract 中,模型开发人员写道:
在这篇论文中,我们通过引入一个统一的框架,将每个语言问题转化为文本到文本的格式,探索了自然语言处理中的迁移学习技术。我们的系统研究比较了预训练目标、架构、无标签数据集、迁移方法和其他因素在数十个语言理解任务上的效果。
引入的框架是T5框架,其中包含了论文中研究的方法。详细信息请参见 research paper 。
开发人员在24个任务上对模型进行了评估,详细信息请参见 research paper 。
T5-11B的完整结果请参见 research paper ,第14表。
可以使用 Machine Learning Impact calculator 在 Lacoste et al. (2019) 中提到的方法估计碳排放量。
BibTeX引用:
@article{2020t5, author = {Colin Raffel and Noam Shazeer and Adam Roberts and Katherine Lee and Sharan Narang and Michael Matena and Yanqi Zhou and Wei Li and Peter J. Liu}, title = {Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer}, journal = {Journal of Machine Learning Research}, year = {2020}, volume = {21}, number = {140}, pages = {1-67}, url = {http://jmlr.org/papers/v21/20-074.html} }
APA引用:
本模型卡片由Hugging Face团队撰写。
在transformers v3.5.0之前,由于其巨大的体积,t5-11b需要特殊处理。如果您使用的是transformers