英文

LongT5(瞬态全局注意力,大型模型)

LongT5模型是在英语语言上进行预训练的。该模型是由Guo等人在论文 LongT5: Efficient Text-To-Text Transformer for Long Sequences 中首次提出,并在 the LongT5 repository 中首次发布。有关模型架构和配置的所有信息可以在 Flaxformer repository 中找到,该论文使用了另一个Google研究项目存储库 T5x

免责声明:发布LongT5的团队没有为这个模型编写模型卡片,所以这个模型卡片是由Hugging Face团队编写的。

模型描述

LongT5模型是在文本到文本去噪生成设置中进行预训练的编码器-解码器transformer( Pegasus-like generation pre-training )。LongT5模型是 T5 model 的扩展,它使得可以使用两种不同的高效注意力机制之一 - (1)局部注意力,或者(2)瞬态全局注意力。注意力稀疏模式的使用使得模型能够高效地处理输入序列。

LongT5在需要处理长输入序列(最多16,384个标记)的文本生成(摘要,问答)任务上表现出色。

LongT5(瞬态全局注意力,大型模型)在多个(摘要,问答)任务上进行了微调,并取得了良好的效果。

Dataset Rouge-1 Rouge-2 Rouge-Lsum
arXiv (16k input) 48.28 21.63 44.11
PubMed (16k input) 49.98 24.69 46.46
BigPatent (16k input) 70.38 56.81 62.73
MultiNews (8k input) 47.18 18.44 24.18
MediaSum (4k input) 35.54 19.04 32.20
CNN / DailyMail (4k input) 42.49 20.51 40.18
Dataset EM F1
Natural Questions (4k input) 60.77 65.38
Trivia QA (16k input) 78.38 82.45

预期用途和限制

该模型主要用于在监督数据集上进行微调。请查看 model hub 以寻找您感兴趣的任务的微调版本。

如何使用

from transformers import AutoTokenizer, LongT5Model

tokenizer = AutoTokenizer.from_pretrained("google/long-t5-tglobal-large")
model = LongT5Model.from_pretrained("google/long-t5-tglobal-large")

inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")
outputs = model(**inputs)

last_hidden_states = outputs.last_hidden_state

BibTeX条目和引文信息

@article{guo2021longt5,
  title={LongT5: Efficient Text-To-Text Transformer for Long Sequences},
  author={Guo, Mandy and Ainslie, Joshua and Uthus, David and Ontanon, Santiago and Ni, Jianmo and Sung, Yun-Hsuan and Yang, Yinfei},
  journal={arXiv preprint arXiv:2112.07916},
  year={2021}
}