模型:
allenai/led-large-16384
Allenai's Longformer Encoder-Decoder (LED) .
如Iz Beltagy、Matthew E. Peters、Arman Cohan所述,在 Longformer: The Long-Document Transformer 中,led-large-16384从 bart-large 初始化,因为这两个模型具有完全相同的架构。为了能够处理16K个token,bart-large的位置编码矩阵被简单地复制了16次。
这个模型在长距离摘要和问答方面特别有趣。
This notebook 显示了led-large-16384如何有效地在下游任务上进行微调。