模型:
ccdv/lsg-barthez-4096
Transformers >= 4.23.1 该模型依赖于自定义建模文件,您需要添加trust_remote_code=True 查看 #13467
LSG ArXiv paper . GitHub/转换脚本可在此 link 处找到。
该模型是从 BARThez 中调整而来,用于编码器-解码器任务,无需额外的预训练。它使用相同数量的参数/层和相同的分词器。
此模型可以处理长序列,但比hub中的Longformer(LED)或BigBird(Pegasus)更快,更高效,并依赖于局部+稀疏+全局注意力(LSG)。
该模型要求序列的长度是块大小的倍数。如果需要,该模型是“自适应的”并自动填充序列(在配置中将adaptive设置为True)。然而,推荐通过分词器截断输入(将截断设置为True),并且可选择将输入填充为块大小的倍数(pad_to_multiple_of = ...)。
使用PyTorch实现。
该模型依赖于自定义建模文件,您需要添加trust_remote_code=True来使用它。
您可以更改各种参数:
默认参数在实践中效果良好。如果内存不足,请缩小块大小,增加稀疏度因子,并去除注意力分数矩阵中的丢弃。
有5种不同的稀疏选择模式。最佳类型取决于任务。注意,对于长度小于2 * block_size的序列,类型没有影响。
摘要的Seq2Seq示例:
分类示例:
要将BERT、RoBERTa或BART检查点转换为LSG,请参阅此 repo 。
BARThez
@article{eddine2020barthez, title={BARThez: a Skilled Pretrained French Sequence-to-Sequence Model}, author={Eddine, Moussa Kamal and Tixier, Antoine J-P and Vazirgiannis, Michalis}, journal={arXiv preprint arXiv:2010.12321}, year={2020} }