模型:
google/long-t5-tglobal-large
LongT5模型是在英语语言上进行预训练的。该模型是由Guo等人在论文 LongT5: Efficient Text-To-Text Transformer for Long Sequences 中首次提出,并在 the LongT5 repository 中首次发布。有关模型架构和配置的所有信息可以在 Flaxformer repository 中找到,该论文使用了另一个Google研究项目存储库 T5x 。
免责声明:发布LongT5的团队没有为这个模型编写模型卡片,所以这个模型卡片是由Hugging Face团队编写的。
LongT5模型是在文本到文本去噪生成设置中进行预训练的编码器-解码器transformer( Pegasus-like generation pre-training )。LongT5模型是 T5 model 的扩展,它使得可以使用两种不同的高效注意力机制之一 - (1)局部注意力,或者(2)瞬态全局注意力。注意力稀疏模式的使用使得模型能够高效地处理输入序列。
LongT5在需要处理长输入序列(最多16,384个标记)的文本生成(摘要,问答)任务上表现出色。
LongT5(瞬态全局注意力,大型模型)在多个(摘要,问答)任务上进行了微调,并取得了良好的效果。
Dataset | Rouge-1 | Rouge-2 | Rouge-Lsum |
---|---|---|---|
arXiv (16k input) | 48.28 | 21.63 | 44.11 |
PubMed (16k input) | 49.98 | 24.69 | 46.46 |
BigPatent (16k input) | 70.38 | 56.81 | 62.73 |
MultiNews (8k input) | 47.18 | 18.44 | 24.18 |
MediaSum (4k input) | 35.54 | 19.04 | 32.20 |
CNN / DailyMail (4k input) | 42.49 | 20.51 | 40.18 |
Dataset | EM | F1 |
---|---|---|
Natural Questions (4k input) | 60.77 | 65.38 |
Trivia QA (16k input) | 78.38 | 82.45 |
该模型主要用于在监督数据集上进行微调。请查看 model hub 以寻找您感兴趣的任务的微调版本。
from transformers import AutoTokenizer, LongT5Model tokenizer = AutoTokenizer.from_pretrained("google/long-t5-tglobal-large") model = LongT5Model.from_pretrained("google/long-t5-tglobal-large") inputs = tokenizer("Hello, my dog is cute", return_tensors="pt") outputs = model(**inputs) last_hidden_states = outputs.last_hidden_state
@article{guo2021longt5, title={LongT5: Efficient Text-To-Text Transformer for Long Sequences}, author={Guo, Mandy and Ainslie, Joshua and Uthus, David and Ontanon, Santiago and Ni, Jianmo and Sung, Yun-Hsuan and Yang, Yinfei}, journal={arXiv preprint arXiv:2112.07916}, year={2021} }