英文

Google's T5 版本 1.1 - LM 适应

版本 1.1 - LM 适应

T5 Version 1.1 - LM Adapted 相比原版本 T5 model ,包含以下改进:

  • 在前馈隐藏层中使用 GEGLU 激活函数,而不是 ReLU - 参见 here

  • 在预训练阶段关闭了 Dropout(提高了质量)。在精调过程中应重新启用 Dropout。

  • 仅使用 C4 预训练,没有混合下游任务。

  • 嵌入层和分类器层之间没有参数共享。

  • "xl" 和 "xxl" 替代了 "3B" 和 "11B"。模型结构有些不同 - 更大的 d_model 和较小的 num_heads 和 d_ff 。

该模型经过去噪和语言建模目标的预训练。

具体来说,这个检查点是从 T5 Version 1.1 - Base 初始化的,然后在 T5 paper 中讨论的 LM 目标上再进行了额外的 100K 步的训练。这个适应改进了模型用于提示调优的能力。

注意 :一个流行的针对 T5 版本 1.1 - LM 适应 模型的细调版本是 BigScience's T0pp

预训练数据集: C4

其他社区检查点: here

论文: Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

作者: Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. Liu

摘要

转移学习,在将模型在一个数据丰富的任务上进行预训练后,在下游任务中进行微调,已经成为自然语言处理 (NLP) 领域中一种强大的技术。转移学习的有效性给 NLP 领域带来了多样的方法、方法论和实践。在本文中,我们通过引入一个统一的框架,将每个语言问题转化为文本到文本的格式,探索了 NLP 转移学习技术的领域。我们的系统研究比较了预训练目标、架构、无标签数据集、转移方法和其他因素在数十个语言理解任务上的效果。通过将我们的研究所得的见解与规模优势和我们的新的“巨大的干净爬取语料库”相结合,我们在许多涵盖摘要、问答、文本分类等方面的基准测试上取得了最先进的结果。为了促进 NLP 转移学习的未来工作,我们发布了我们的数据集、预训练模型和代码。