模型:
google/bigbird-roberta-base
BigBird是一种基于稀疏注意力的Transformer模型,扩展了基于Transformer的模型,如BERT,可以处理更长的序列。此外,BigBird对于稀疏模型可以处理的完整Transformer的能力具有理论理解。
它是使用掩码语言建模(MLM)目标在英语语言上预训练的模型。它在这个 paper 中被引入,并在这个 repository 中首次发布。
免责声明:发布BigBird的团队没有为该模型撰写模型卡片,因此此模型卡片是由Hugging Face团队编写的。
BigBird依赖于分块稀疏注意力,而不是普通注意力(即BERT的注意力),可以处理长度为4096的序列,而计算成本比BERT低得多。它在涉及非常长的序列的各种任务上取得了SOTA,例如长文档摘要,带有长上下文的问答。
以下是如何在PyTorch中使用此模型来获取给定文本的特征的方法:
from transformers import BigBirdModel # by default its in `block_sparse` mode with num_random_blocks=3, block_size=64 model = BigBirdModel.from_pretrained("google/bigbird-roberta-base") # you can change `attention_type` to full attention like this: model = BigBirdModel.from_pretrained("google/bigbird-roberta-base", attention_type="original_full") # you can change `block_size` & `num_random_blocks` like this: model = BigBirdModel.from_pretrained("google/bigbird-roberta-base", block_size=16, num_random_blocks=2) text = "Replace me by any text you'd like." encoded_input = tokenizer(text, return_tensors='pt') output = model(**encoded_input)
此模型在四个公开可用的数据集上进行了预训练:Books,CC-News,Stories和Wikipedia。它使用与RoBERTa相同的sentencepiece词汇表(RoBERTa本身是从GPT2借用的)。
长度大于4096的文档被分成多个文档,而远小于4096的文档则被合并。按照原始的BERT训练,15%的标记被掩盖,模型经过训练以预测掩盖部分。
模型从RoBERTa的检查点进行热启动。
@misc{zaheer2021big, title={Big Bird: Transformers for Longer Sequences}, author={Manzil Zaheer and Guru Guruganesh and Avinava Dubey and Joshua Ainslie and Chris Alberti and Santiago Ontanon and Philip Pham and Anirudh Ravula and Qifan Wang and Li Yang and Amr Ahmed}, year={2021}, eprint={2007.14062}, archivePrefix={arXiv}, primaryClass={cs.LG} }