英文

Google's T5 版本 1.1 - LM-适应

版本 1.1 - LM-适应

T5 Version 1.1 - LM Adapted 相较于原版 T5 model ,包含以下改进:

  • 使用 GEGLU 激活函数在前向隐藏层中,而不是 ReLU - 参见 here

  • 在预训练中关闭了 Dropout(质量方面的胜利)。在微调过程中应重新启用 Dropout。

  • 仅在 C4 上进行了预训练,并未混合下游任务。

  • 嵌入层和分类器层之间没有参数共享

  • "xl" 和 "xxl" 代替了 "3B" 和 "11B"。模型结构稍有不同 - 更大的 d_model 和较小的 num_heads 和 d_ff 。

并且该模型同时在去噪和语言建模目标上进行了预训练。

具体而言,该检查点从 T5 Version 1.1 - Large 初始化,并在 T5 paper 中讨论的语言建模目标上额外训练了 100K 步。此适应性提高了模型进行提示调整的能力。

注意:T5 Version 1.1 - LM Adapted 的一个流行的精调版本是 BigScience's T0pp

预训练数据集: C4

其他社区检查点: here

论文: Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

作者:Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. Liu

摘要

在自然语言处理(NLP)中,迁移学习已经成为一项强大的技术,其中模型首先在数据丰富的任务上进行预训练,然后再在下游任务上进行微调。迁移学习的有效性催生了多种方法、方法论和实践。在本文中,我们通过引入统一的框架,将每个语言问题转化为文本到文本的格式,探索了NLP迁移学习技术的领域。我们的系统研究比较了预训练目标、架构、无标签数据集、迁移方法和其他因素在数十个语言理解任务上的表现。通过将我们的探索结果与规模和我们的新的“巨大清洁爬取语料库”相结合,我们在涵盖摘要、问答、文本分类等多个基准测试上取得了最先进的结果。为了促进NLP迁移学习的未来研究,我们发布了我们的数据集、预训练模型和代码。