英文

LongT5(本地注意力,基于base大小的模型)

LongT5模型是在英语语言上进行预训练的。该模型在Guo等人的论文 LongT5: Efficient Text-To-Text Transformer for Long Sequences 中首次提出,并于 the LongT5 repository 首次发布。模型的所有架构和配置可在 Flaxformer repository 中找到,该论文使用了另一个谷歌研究项目仓库 T5x

免责声明:发布LongT5的团队未为这个模型编写模型卡片,因此此模型卡片是由Hugging Face团队编写的。

模型描述

LongT5模型是在文本到文本去噪生成设置下进行预训练的编码器-解码器变压器( Pegasus-like generation pre-training )。LongT5模型是 T5 model 的扩展,它可以使用两种不同的高效注意力机制之一-(1)本地注意力,或(2)短暂-全局注意力。注意力稀疏模式的使用使得模型能够高效处理输入序列。

LongT5在针对文本生成(摘要,问答)进行微调时特别有效,这需要处理长输入序列(多达16,384个标记)。

使用目的和限制条件

该模型主要用于在有监督的数据集上进行微调。请查看 model hub ,以寻找您感兴趣的任务的微调版本。

如何使用

from transformers import AutoTokenizer, LongT5Model

tokenizer = AutoTokenizer.from_pretrained("google/long-t5-local-base")
model = LongT5Model.from_pretrained("google/long-t5-local-base")

inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")
outputs = model(**inputs)

last_hidden_states = outputs.last_hidden_state

BibTeX条目和引用信息

@article{guo2021longt5,
  title={LongT5: Efficient Text-To-Text Transformer for Long Sequences},
  author={Guo, Mandy and Ainslie, Joshua and Uthus, David and Ontanon, Santiago and Ni, Jianmo and Sung, Yun-Hsuan and Yang, Yinfei},
  journal={arXiv preprint arXiv:2112.07916},
  year={2021}
}