模型:

dlicari/lsg16k-Italian-Legal-BERT

英文

LSG16K-Italian-LEGAL-BERT

Local-Sparse-Global 由 LSG 转换器脚本( https://github.com/ccdv-ai/convert\_checkpoint\_to\_lsg )替换编码器部分的全局注意力。我们使用了最大序列长度为16,384的 LSG 注意力,7 个全局标记,128 个本地块大小,128 个稀疏块大小,2 个稀疏因子,'norm' 稀疏选择模式(选择最高范数的标记)。