英文

Google's T5 版本 1.1 - LM-适应版

版本 1.1 - LM-适应版

T5 Version 1.1 - LM Adapted 相对于原始 T5 model 包含以下改进:

  • GEGLU激活在前馈隐藏层,而不是ReLU - 参见 here

  • 在预训练中关闭了Dropout(质量提升)。在微调期间应重新启用Dropout。

  • 仅在C4上进行预训练,不混合下游任务。

  • 嵌入层和分类器层之间没有参数共享。

  • "xl"和"xxl"替代了"3B"和"11B"。模型形状略有不同 - 更大的d_model和较小的num_heads和d_ff。

并且在去噪和语言建模目标上进行了预训练。

具体而言,此检查点是从 T5 Version 1.1 - Small 初始化,然后在 T5 paper 中讨论的LM目标上进行了额外的100K步的训练。此适应改进了模型用于提示调整的能力。

注意:T5版本 1.1 - LM适应模型的一种流行的微调版本是 BigScience's T0pp

预训练数据集: C4

其他社区检查点: here

论文: Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

作者: Colin Raffel,Noam Shazeer,Adam Roberts,Katherine Lee,Sharan Narang,Michael Matena,Yanqi Zhou,Wei Li,Peter J. Liu

摘要

迁移学习在自然语言处理(NLP)中已经成为一种强大的技术,其中模型首先在数据丰富的任务上进行预训练,然后在下游任务上进行微调。迁移学习的有效性催生了多种方法、方法论和实践。在本文中,我们通过引入一个将每个语言问题转换为文本到文本格式的统一框架,探索了NLP中的迁移学习技术的领域。我们的系统研究比较了预训练目标、架构、无标签数据集、迁移方法和其他因素在数十个语言理解任务上的表现。通过将我们的探索结果与规模和我们的新的“Colossal Clean Crawled Corpus”相结合,我们在涵盖摘要、问答、文本分类等多个基准测试中取得了最先进的结果。为了促进NLP迁移学习的未来工作,我们发布了我们的数据集、预训练模型和代码。