模型:
joelito/legal-swiss-roberta-base
该模型是在法律数据上进行预训练的多语言模型。它基于 XLM-R ( base 和 large )。在预训练阶段,我们使用了来自各种法律来源的多语言数据集 Multi Legal Pile ( Niklaus et al. 2023 ),涵盖了24种语言。
您可以利用原始模型进行遮蔽语言模型,因为我们没有执行下一句预测。然而,它的主要目的是为下游任务进行微调。
需要注意的是,该模型主要用于在整个句子上进行微调,可能包含遮蔽元素,以便做出决策的任务。此类任务的示例包括序列分类、标记分类或问答。对于文本生成任务,像GPT-2这样的模型更适合。
此外,该模型专门针对法律数据进行了训练,旨在在该领域提供强大的性能。应用于非法律数据时,其性能可能有所差异。
对于文本生成等任务,您应该查看GPT2之类的模型。
该模型不应该被用于故意创建对人们具有敌意或疏远的环境。该模型不是被训练成人物或事件的事实或真实的表示,因此使用该模型生成此类内容超出了该模型的能力范围。
对语言模型的偏见和公平性问题进行了大量研究(参见 Sheng et al. (2021) 和 Bender et al. (2021) 等)。模型生成的预测结果可能包含有关受保护类别、身份特征、敏感社会和职业群体的令人不安和有害的刻板印象。
用户(包括直接用户和下游用户)应该意识到模型的风险、偏见和局限性。
查看 huggingface tutorials 以了解如何开始使用该模型。对于遮蔽词预测,请参阅 this tutorial 。
该模型在 Multi Legal Pile ( Niklaus et al. 2023 ) 上进行了预训练。
我们的预训练过程包括以下关键步骤:
(a) 热启动:我们从原始的 XLM-R checkpoints( base 和 large )进行初始化,以便从一个经过良好训练的基础模型开始。
(b) 分词:我们训练了一个新的128K BPEs tokenizer,以更好地覆盖法律语言。但是,我们重复使用原始 XLM-R 的嵌入来处理重叠的词元,并对其余词元使用随机嵌入。
(c) 预训练:我们继续在多语言法律数据集上进行预训练,使用每个批次512个样本,为基础模型和大模型分别额外进行100万和50万步的训练。我们使用渐变升温步骤、线性增加的学习率和余弦衰减调度。在渐变升温阶段,只更新嵌入,并使用比 Devlin et al. (2019) 更高的遮蔽率和基于遮蔽词的预测比例。
(d) 句子采样:我们使用指数平滑的句子采样器来处理各个州和语言之间的不均衡词元比例,保留每个州和语言的容量。
(e) 混合大小写模型:我们的模型同时涵盖大写和小写字母,类似于最近开发的大型预训练模型。
(f) 长上下文训练:为了考虑法律文件中的长上下文,我们使用窗口化注意力将基础尺寸的多语言模型训练在长上下文上。这个变种模型被命名为Legal-Swiss-LF-base,它使用15%的遮蔽概率、更高的学习率和与小上下文模型相似的设置。
该模型在 Multi Legal Pile ( Niklaus et al. 2023 ) 上进行了预训练。
预处理更多细节,请参阅 Niklaus et al. 2023
训练超参数关于评估的更多见解,请参阅 trainer state 。有关 LEXTREME ( Niklaus et al. 2023 ) 或 LEXGLUE ( Chalkidis et al. 2021 ) 等下游任务的性能,请参阅 Nikolaus 等人 (2023) 的结果 1 , 2 。
这是一个基于 RoBERTa 的模型。运行以下代码以查看架构:
from transformers import AutoModel model = AutoModel.from_pretrained('joelito/legal-swiss-roberta-base') print(model) RobertaModel( (embeddings): RobertaEmbeddings( (word_embeddings): Embedding(128000, 768, padding_idx=0) (position_embeddings): Embedding(514, 768, padding_idx=0) (token_type_embeddings): Embedding(1, 768) (LayerNorm): LayerNorm((768,), eps=1e-05, elementwise_affine=True) (dropout): Dropout(p=0.1, inplace=False) ) (encoder): RobertaEncoder( (layer): ModuleList( (0-11): 12 x RobertaLayer( (attention): RobertaAttention( (self): RobertaSelfAttention( (query): Linear(in_features=768, out_features=768, bias=True) (key): Linear(in_features=768, out_features=768, bias=True) (value): Linear(in_features=768, out_features=768, bias=True) (dropout): Dropout(p=0.1, inplace=False) ) (output): RobertaSelfOutput( (dense): Linear(in_features=768, out_features=768, bias=True) (LayerNorm): LayerNorm((768,), eps=1e-05, elementwise_affine=True) (dropout): Dropout(p=0.1, inplace=False) ) ) (intermediate): RobertaIntermediate( (dense): Linear(in_features=768, out_features=3072, bias=True) (intermediate_act_fn): GELUActivation() ) (output): RobertaOutput( (dense): Linear(in_features=3072, out_features=768, bias=True) (LayerNorm): LayerNorm((768,), eps=1e-05, elementwise_affine=True) (dropout): Dropout(p=0.1, inplace=False) ) ) ) ) (pooler): RobertaPooler( (dense): Linear(in_features=768, out_features=768, bias=True) (activation): Tanh() ) )
Google TPU。
硬件Google TPU v3-8
软件pytorch,transformers
@misc{rasiah2023scale, title={SCALE: Scaling up the Complexity for Advanced Language Model Evaluation}, author={Vishvaksenan Rasiah and Ronja Stern and Veton Matoshi and Matthias Stürmer and Ilias Chalkidis and Daniel E. Ho and Joel Niklaus}, year={2023}, eprint={2306.09237}, archivePrefix={arXiv}, primaryClass={cs.CL} } @article{Niklaus2023MultiLegalPileA6, title={MultiLegalPile: A 689GB Multilingual Legal Corpus}, author={Joel Niklaus and Veton Matoshi and Matthias Sturmer and Ilias Chalkidis and Daniel E. Ho}, journal={ArXiv}, year={2023}, volume={abs/2306.02069} }
Joel Niklaus: huggingface ; email
Veton Matoshi: huggingface ; email
Joel Niklaus: huggingface ; email
Veton Matoshi: huggingface ; email