google/flan-ul2 的分叉

这是基于google/flan-ul2 20B的一个分叉，实现了一个自定义的handler.py，用于在4x NVIDIA T4上部署模型到推理端点。

您可以使用 1-click 来部署flan-ul2。

注意：由于构建过程非常漫长，创建端点可能需要2小时，请耐心等待。我们正在努力改进这一点！

简而言之

Flan-UL2是基于T5架构的编码器解码器模型。它使用了去年早些时候发布的 UL2 model 的相同配置。通过“Flan”提示调整和数据集收集进行了微调。

根据原始的 blog ，以下是值得注意的改进:

原始UL2模型仅使用512的感受野进行训练，这对于大规模N-shot提示来说并不理想。
Flan-UL2检查点使用2048的感受野，使之更适用于少量示例的上下文学习。
原始的UL2模型还有模式切换令牌，这些令牌在获取良好性能时必不可少。然而，它们有点麻烦，因为这需要经常在推理或微调过程中进行一些更改。在此更新/更改中，我们在对UL2 20B进行额外的10万步（使用小批量）训练，以去除“模式令牌”后再应用Flan提示调整。这个Flan-UL2检查点不再需要模式令牌。

重要说明：有关详细信息，请参见 paper 的5.2.1和5.2.2节。

该模型最初由 Yi Tay 贡献，并由 Younes Belkada 和 Arthur Zucker 添加到Hugging Face生态系统中。

如果您想引用这个工作，请考虑引用 blogpost 宣布发布Flan-UL2的文章。

作者:

Philipp Schmid

数据集大小:

44.74 GB