LongT5（长时全局注意力，基本大小模型）

LongT5模型是在英语语言上进行预训练的。该模型在Guo等人的论文 LongT5: Efficient Text-To-Text Transformer for Long Sequences 中首次提出，并在 the LongT5 repository 中首次发布。所有模型的架构和配置都可以在 Flaxformer repository 中找到，该论文使用了另一个谷歌研究项目库 T5x 。

免责声明：发布LongT5的团队没有为这个模型编写模型卡片，因此这个模型卡片是由Hugging Face团队编写的。

模型描述

LongT5模型是在文本到文本去噪生成设置（ Pegasus-like generation pre-training ）下进行预训练的编码器解码器变换器。LongT5模型是 T5 model 的延伸，它使得可以使用两种不同的高效注意机制之一 - （1）局部注意，或者（2）瞬态全局注意。使用注意力稀疏模式使得模型能够高效处理输入序列。

LongT5在处理长输入序列（最多16384个标记）时尤其有效，特别适用于文本生成（摘要、问答）的精细调整。

预期的使用方式和限制

该模型主要用于在监督数据集上进行精细调整。请参阅 model hub ，以查找与您感兴趣的任务相关的精细调整版本。

如何使用

from transformers import AutoTokenizer, LongT5Model

tokenizer = AutoTokenizer.from_pretrained("google/long-t5-tglobal-base")
model = LongT5Model.from_pretrained("google/long-t5-tglobal-base")

inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")
outputs = model(**inputs)

last_hidden_states = outputs.last_hidden_state

BibTeX条目和引用信息

@article{guo2021longt5,
  title={LongT5: Efficient Text-To-Text Transformer for Long Sequences},
  author={Guo, Mandy and Ainslie, Joshua and Uthus, David and Ontanon, Santiago and Ni, Jianmo and Sung, Yun-Hsuan and Yang, Yinfei},
  journal={arXiv preprint arXiv:2112.07916},
  year={2021}
}

作者:

Google AI

数据集大小:

1.85 GB