英文

Legal ⚖️ longformer-base-8192-spanish

legal-longformer-base-8192是一个类似于BERT的模型,基于RoBERTa检查点(此处为 RoBERTalex )开始,针对 Spanish Legal Domain Corpora 中的长文档进行了MLM的预训练。它支持长度最高达8192的序列!

Longformer使用滑动窗口(局部)注意力和全局注意力的组合。全局注意力是根据任务来进行用户配置,以允许模型学习任务特定的表示。

此模型是根据 Iz Beltagy and Matthew E. Peters and Arman Cohan 的研究成果制作的。

模型(基础检查点)

RoBERTalex 对于西班牙语来说,已经训练了很少的模型。其中一些模型是使用资源有限、未经清洗的语料库进行训练的。从西班牙语言技术国家计划衍生出的模型擅长解决多个任务,并使用大规模的干净语料库进行训练。然而,西班牙法律领域的语言可以被视为一种独立的语言。因此,我们从头开始创建了一个专门在法律语料库上训练的西班牙法律模型。

数据集

Spanish Legal Domain Corpora 西班牙法律领域的语料库集合。

更多法律领域资源: https://github.com/PlanTL-GOB-ES/lm-legal-es

引用

如果您想引用这个模型,可以使用以下内容:

@misc {manuel_romero_2022,
    author       = { {Manuel Romero} },
    title        = { legal-longformer-base-8192-spanish (Revision 1fa2697) },
    year         = 2022,
    url          = { https://huggingface.co/mrm8488/legal-longformer-base-8192-spanish },
    doi          = { 10.57967/hf/0108 },
    publisher    = { Hugging Face }
}

免责声明(来自RoBERTalex)

此存储库中发布的模型旨在用于普遍目的,并可提供给第三方使用。这些模型可能存在偏见和/或其他不可取的失真。

当第三方使用这些模型(或基于这些模型的系统)部署或提供系统和/或服务,或成为这些模型的用户时,他们应注意自己有责任减轻使用中可能产生的风险,并在任何情况下遵守适用法规,包括关于使用人工智能的法规。