模型:
t5-11b
文本到文本转换 Transformer(T5)的开发人员 write :
使用 T5,我们提出将所有 NLP 任务重新构建为统一的文本到文本格式,其中输入和输出始终是文本字符串,而不是只能输出类标签或输入文本片段的 BERT 风格模型。我们的文本到文本框架允许我们在任何 NLP 任务上使用相同的模型、损失函数和超参数。
T5-11B 是具有 110 亿参数的检查点。
开发者在 blog post 中写道,该模型:
我们的文本到文本框架允许我们在任何 NLP 任务上使用相同的模型、损失函数和超参数,包括机器翻译、文档摘要、问答和分类任务(如情感分析)。我们甚至可以将 T5 应用于回归任务,通过训练它预测一个数字的字符串表示,而不是数字本身。
有关详细信息,请参见 blog post 和 research paper 。
需要更多信息。
需要更多信息。
需要更多信息。
该模型在 Colossal Clean Crawled Corpus (C4) 上进行了预训练,该数据集是在与 T5 相同的 research paper 上开发和发布的。
该模型在未监督任务(1.)和监督任务(2.)的多任务混合上进行了预训练。具体而言,以下数据集用于(1.)和(2.):
在他们的 abstract 中,模型的开发者写道:
本文中,我们通过引入一个统一的框架,将每个语言问题转换为文本到文本格式,来探索 NLP 转移学习技术的可行性。我们的系统研究比较了几十个语言理解任务的预训练目标、架构、无标签数据集、转移方法和其他因素。
引入的框架是 T5 框架,在论文中研究的方法都被整合到训练过程中。更多细节请参见 research paper 。
开发者在 research paper 中对模型进行了 24 个任务的评估,详细内容请参见该论文。
T5-11B 的完整结果,请参见 research paper ,表 14。
可以使用 Machine Learning Impact calculator 中介绍的方法来估算碳排放量。
BibTeX:
@article{2020t5, author = {Colin Raffel and Noam Shazeer and Adam Roberts and Katherine Lee and Sharan Narang and Michael Matena and Yanqi Zhou and Wei Li and Peter J. Liu}, title = {Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer}, journal = {Journal of Machine Learning Research}, year = {2020}, volume = {21}, number = {140}, pages = {1-67}, url = {http://jmlr.org/papers/v21/20-074.html} }
APA:
本模型卡片由 Hugging Face 团队编写。
在 transformers v3.5.0 之前,由于其巨大的尺寸, t5-11b 需要一些特殊处理。如果您使用的是 transformers