模型:

joelito/legal-swiss-roberta-base

任务:

填充掩码

类库:

PyTorch TensorBoard Transformers

语言:

multilingual

其他:

roberta AutoTrain Compatible

预印本库:

arxiv:2306.02069 arxiv:2301.13126 arxiv:2110.00976 arxiv:2306.09237

许可:

模型介绍文件清单

英文

joelito/legal-swiss-roberta-base 的模型卡片

该模型是在法律数据上进行预训练的多语言模型。它基于 XLM-R ( base 和 large )。在预训练阶段，我们使用了来自各种法律来源的多语言数据集 Multi Legal Pile ( Niklaus et al. 2023 )，涵盖了24种语言。

模型细节

模型描述

开发者：Joel Niklaus： huggingface ； email
模型类型：基于Transformer的语言模型（RoBERTa）
语言：德语，法语，意大利语
许可证：CC BY-SA

用途

直接使用和下游使用

您可以利用原始模型进行遮蔽语言模型，因为我们没有执行下一句预测。然而，它的主要目的是为下游任务进行微调。

需要注意的是，该模型主要用于在整个句子上进行微调，可能包含遮蔽元素，以便做出决策的任务。此类任务的示例包括序列分类、标记分类或问答。对于文本生成任务，像GPT-2这样的模型更适合。

此外，该模型专门针对法律数据进行了训练，旨在在该领域提供强大的性能。应用于非法律数据时，其性能可能有所差异。

超出范围的使用

对于文本生成等任务，您应该查看GPT2之类的模型。

该模型不应该被用于故意创建对人们具有敌意或疏远的环境。该模型不是被训练成人物或事件的事实或真实的表示，因此使用该模型生成此类内容超出了该模型的能力范围。

偏见、风险和局限性

对语言模型的偏见和公平性问题进行了大量研究（参见 Sheng et al. (2021) 和 Bender et al. (2021) 等）。模型生成的预测结果可能包含有关受保护类别、身份特征、敏感社会和职业群体的令人不安和有害的刻板印象。

如何开始使用该模型

查看 huggingface tutorials 以了解如何开始使用该模型。对于遮蔽词预测，请参阅 this tutorial 。

训练细节

该模型在 Multi Legal Pile ( Niklaus et al. 2023 ) 上进行了预训练。

我们的预训练过程包括以下关键步骤：

(a) 热启动：我们从原始的 XLM-R checkpoints（ base 和 large ）进行初始化，以便从一个经过良好训练的基础模型开始。

(b) 分词：我们训练了一个新的128K BPEs tokenizer，以更好地覆盖法律语言。但是，我们重复使用原始 XLM-R 的嵌入来处理重叠的词元，并对其余词元使用随机嵌入。

(c) 预训练：我们继续在多语言法律数据集上进行预训练，使用每个批次512个样本，为基础模型和大模型分别额外进行100万和50万步的训练。我们使用渐变升温步骤、线性增加的学习率和余弦衰减调度。在渐变升温阶段，只更新嵌入，并使用比 Devlin et al. (2019) 更高的遮蔽率和基于遮蔽词的预测比例。

(d) 句子采样：我们使用指数平滑的句子采样器来处理各个州和语言之间的不均衡词元比例，保留每个州和语言的容量。

(e) 混合大小写模型：我们的模型同时涵盖大写和小写字母，类似于最近开发的大型预训练模型。

(f) 长上下文训练：为了考虑法律文件中的长上下文，我们使用窗口化注意力将基础尺寸的多语言模型训练在长上下文上。这个变种模型被命名为Legal-Swiss-LF-base，它使用15%的遮蔽概率、更高的学习率和与小上下文模型相似的设置。

训练数据

该模型在 Multi Legal Pile ( Niklaus et al. 2023 ) 上进行了预训练。

预处理

更多细节，请参阅 Niklaus et al. 2023

训练超参数

批次大小：512个样本
步数数量：基础模型为100万步，大模型为50万步
前5%的总训练步骤用于渐变升温
学习率：线性增加，最高为$1e!-!4$
单词遮蔽：基础模型为20%的遮蔽率，大模型为30%的遮蔽率

评估

关于评估的更多见解，请参阅 trainer state 。有关 LEXTREME ( Niklaus et al. 2023 ) 或 LEXGLUE ( Chalkidis et al. 2021 ) 等下游任务的性能，请参阅 Nikolaus 等人 (2023) 的结果 1 ， 2 。

模型架构和目标

这是一个基于 RoBERTa 的模型。运行以下代码以查看架构：

from transformers import AutoModel
model = AutoModel.from_pretrained('joelito/legal-swiss-roberta-base')
print(model)

RobertaModel(
  (embeddings): RobertaEmbeddings(
    (word_embeddings): Embedding(128000, 768, padding_idx=0)
    (position_embeddings): Embedding(514, 768, padding_idx=0)
    (token_type_embeddings): Embedding(1, 768)
    (LayerNorm): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
    (dropout): Dropout(p=0.1, inplace=False)
  )
  (encoder): RobertaEncoder(
    (layer): ModuleList(
      (0-11): 12 x RobertaLayer(
        (attention): RobertaAttention(
          (self): RobertaSelfAttention(
            (query): Linear(in_features=768, out_features=768, bias=True)
            (key): Linear(in_features=768, out_features=768, bias=True)
            (value): Linear(in_features=768, out_features=768, bias=True)
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (output): RobertaSelfOutput(
            (dense): Linear(in_features=768, out_features=768, bias=True)
            (LayerNorm): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
        (intermediate): RobertaIntermediate(
          (dense): Linear(in_features=768, out_features=3072, bias=True)
          (intermediate_act_fn): GELUActivation()
        )
        (output): RobertaOutput(
          (dense): Linear(in_features=3072, out_features=768, bias=True)
          (LayerNorm): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
          (dropout): Dropout(p=0.1, inplace=False)
        )
      )
    )
  )
  (pooler): RobertaPooler(
    (dense): Linear(in_features=768, out_features=768, bias=True)
    (activation): Tanh()
  )
)

计算基础设施

Google TPU。

硬件

Google TPU v3-8

软件

pytorch，transformers

引用 [可选]

@misc{rasiah2023scale,
      title={SCALE: Scaling up the Complexity for Advanced Language Model Evaluation}, 
      author={Vishvaksenan Rasiah and Ronja Stern and Veton Matoshi and Matthias Stürmer and Ilias Chalkidis and Daniel E. Ho and Joel Niklaus},
      year={2023},
      eprint={2306.09237},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}
@article{Niklaus2023MultiLegalPileA6,
  title={MultiLegalPile: A 689GB Multilingual Legal Corpus},
  author={Joel Niklaus and Veton Matoshi and Matthias Sturmer and Ilias Chalkidis and Daniel E. Ho},
  journal={ArXiv},
  year={2023},
  volume={abs/2306.02069}
}

模型卡片作者

Joel Niklaus： huggingface ； email

Veton Matoshi： huggingface ； email

模型卡片联系方式