英文

BigBird大模型

BigBird是一种基于稀疏注意力的Transformer模型,可以将Transformer等基于模型的模型扩展到更长的序列。此外,BigBird还具有对稀疏模型处理能力的理论理解。

它是在英语语言上进行预训练的,使用了遮罩语言建模(MLM)目标。它在这个地方进行了介绍并在这个地方首次发布。

免责声明:发布BigBird的团队没有为这个模型编写模型卡片,因此这个模型卡片是由Hugging Face团队编写的。

模型描述

BigBird依赖于块稀疏注意力,而不是常规注意力(即BERT的注意力),可以处理长度高达4096的序列,而与BERT相比,计算成本要低得多。它在涉及非常长的序列(如长文档摘要、长上下文的问答等)的各种任务上都实现了SOTA。

使用方法

以下是如何使用此模型在PyTorch中获取给定文本的特征:

from transformers import BigBirdModel

# by default its in `block_sparse` mode with num_random_blocks=3, block_size=64
model = BigBirdModel.from_pretrained("google/bigbird-roberta-large")

# you can change `attention_type` to full attention like this:
model = BigBirdModel.from_pretrained("google/bigbird-roberta-large", attention_type="original_full")

# you can change `block_size` & `num_random_blocks` like this:
model = BigBirdModel.from_pretrained("google/bigbird-roberta-large", block_size=16, num_random_blocks=2)

text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)

训练数据

该模型在四个公开可用的数据集上进行了预训练:书籍、CC-News、故事和维基百科。它使用了与RoBERTa相同的句子片段词汇表(RoBERTa又借用了GPT2的词汇表)。

训练过程

将大于4096的文档拆分为多个文档,将远小于4096的文档合并。遵循原始BERT训练,15%的标记被掩码,模型通过预测掩码进行训练。

模型从RoBERTa的检查点进行热启动。

BibTeX条目和引文信息

@misc{zaheer2021big,
      title={Big Bird: Transformers for Longer Sequences}, 
      author={Manzil Zaheer and Guru Guruganesh and Avinava Dubey and Joshua Ainslie and Chris Alberti and Santiago Ontanon and Philip Pham and Anirudh Ravula and Qifan Wang and Li Yang and Amr Ahmed},
      year={2021},
      eprint={2007.14062},
      archivePrefix={arXiv},
      primaryClass={cs.LG}
}