模型:

allenai/led-large-16384

英文

介绍

Allenai's Longformer Encoder-Decoder (LED) .

如Iz Beltagy、Matthew E. Peters、Arman Cohan所述,在 Longformer: The Long-Document Transformer 中,led-large-16384从 bart-large 初始化,因为这两个模型具有完全相同的架构。为了能够处理16K个token,bart-large的位置编码矩阵被简单地复制了16次。

这个模型在长距离摘要和问答方面特别有趣。

下游任务的微调

This notebook 显示了led-large-16384如何有效地在下游任务上进行微调。