英文

google/flan-ul2 的分叉

这是基于google/flan-ul2 20B的一个分叉,实现了一个自定义的handler.py,用于在4x NVIDIA T4上部署模型到推理端点。

您可以使用 1-click 来部署flan-ul2。

注意:由于构建过程非常漫长,创建端点可能需要2小时,请耐心等待。我们正在努力改进这一点!

简而言之

Flan-UL2是基于T5架构的编码器解码器模型。它使用了去年早些时候发布的 UL2 model 的相同配置。通过“Flan”提示调整和数据集收集进行了微调。

根据原始的 blog ,以下是值得注意的改进:

  • 原始UL2模型仅使用512的感受野进行训练,这对于大规模N-shot提示来说并不理想。
  • Flan-UL2检查点使用2048的感受野,使之更适用于少量示例的上下文学习。
  • 原始的UL2模型还有模式切换令牌,这些令牌在获取良好性能时必不可少。然而,它们有点麻烦,因为这需要经常在推理或微调过程中进行一些更改。在此更新/更改中,我们在对UL2 20B进行额外的10万步(使用小批量)训练,以去除“模式令牌”后再应用Flan提示调整。这个Flan-UL2检查点不再需要模式令牌。

重要说明:有关详细信息,请参见 paper 的5.2.1和5.2.2节。

贡献

该模型最初由 Yi Tay 贡献,并由 Younes Belkada Arthur Zucker 添加到Hugging Face生态系统中。

引用

如果您想引用这个工作,请考虑引用 blogpost 宣布发布Flan-UL2的文章。