模型:
joelito/legal-xlm-roberta-base
该模型是基于XLM-R( base 和 large )在法律数据上预训练的多语言模型。我们使用了来自24种语言的各种法律来源的多语言数据集 Multi Legal Pile ( Niklaus et al. 2023 )进行预训练。
您可以利用原始模型进行遮蔽语言建模,因为我们没有执行下一个句子预测。然而,它的主要目的是用于下游任务的精调。
需要注意的是,该模型主要设计用于在依赖整个句子(可能带有遮蔽的元素)进行决策的任务上进行精调。这些任务的示例包括序列分类、标记分类或问答。对于文本生成任务,像GPT-2这样的模型更适用。
此外,该模型是针对法律数据进行特定训练的,旨在在该领域提供强大的性能。在应用于非法律数据时,其性能可能有所不同。
对于文本生成等任务,您应该参考GPT2等模型。
该模型不应该被用来故意为人们创造敌意或疏远的环境。该模型没有经过训练以成为关于人或事件的事实或真实表达,因此使用该模型生成此类内容超出了该模型能力的范围。
已经进行了与语言模型的偏见和公平性问题的深入研究(参见例如 Sheng et al. (2021) 和 Bender et al. (2021) )。模型生成的预测可能会包含跨受保护类别的破坏性和有害的定型、身份特征以及敏感的社会和职业群体的刻板印象。
用户(直接和下游)应该了解模型的风险、偏见和限制。
请参阅 huggingface tutorials 。要进行遮蔽词预测,请参阅 this tutorial 。
该模型是在 Multi Legal Pile ( Niklaus et al. 2023 )上进行预训练的。
我们的预训练过程包括以下关键步骤:
(a) Warm-starting: 我们从原始的XLM-R检查点( base 和 large )中初始化我们的模型,以便从一个训练有素的基础开始。
(b) 分词:我们训练了一个新的128K BPEs的分词器,以更好地覆盖法律语言。但是,我们重用原始的XLM-R嵌入以覆盖词汇上重叠的词标,并对其余的词标使用随机嵌入。
(c) 预训练:我们在Multi Legal Pile上继续进行预训练,使用512个样本的批次进行额外的1M/500K步骤,用于基础/大型模型。我们使用预热步骤、线性增加的学习率和余弦衰减调度。在预热阶段,只有嵌入被更新,并且使用比 Devlin et al. (2019) 中的遮蔽率更高的更高的遮蔽率和基于遮蔽标记的预测百分比。
(d) 句子采样:我们使用指数平滑的句子采样器来处理各州和语言之间不同的词标比例,保留每州和每种语言的容量。
(e) 混合大小写模型:我们的模型同时覆盖大写和小写字母,类似于最近开发的大型PLM。
(f) 长上下文训练:为了考虑法律文件中的长上下文,我们在具有窗口注意力的长上下文方面对基础尺寸的多语言模型进行训练。这个变种叫做Legal-Swiss-LF-base,使用了15%的遮蔽概率、增加的学习率和类似小上下文模型的设置。
该模型在 Multi Legal Pile ( Niklaus et al. 2023 )上预训练。
Preprocessing更多细节请参阅 Niklaus et al. 2023
Training Hyperparameters如需进一步了解评估,请参阅 trainer state 。有关结果的更多信息,请参阅Niklaus等人(2023) 1 , 2 。
这是一个基于RoBERTa的模型。运行以下代码查看架构:
from transformers import AutoModel model = AutoModel.from_pretrained('joelito/legal-xlm-roberta-base') print(model) RobertaModel( (embeddings): RobertaEmbeddings( (word_embeddings): Embedding(128000, 768, padding_idx=0) (position_embeddings): Embedding(514, 768, padding_idx=0) (token_type_embeddings): Embedding(1, 768) (LayerNorm): LayerNorm((768,), eps=1e-05, elementwise_affine=True) (dropout): Dropout(p=0.1, inplace=False) ) (encoder): RobertaEncoder( (layer): ModuleList( (0-11): 12 x RobertaLayer( (attention): RobertaAttention( (self): RobertaSelfAttention( (query): Linear(in_features=768, out_features=768, bias=True) (key): Linear(in_features=768, out_features=768, bias=True) (value): Linear(in_features=768, out_features=768, bias=True) (dropout): Dropout(p=0.1, inplace=False) ) (output): RobertaSelfOutput( (dense): Linear(in_features=768, out_features=768, bias=True) (LayerNorm): LayerNorm((768,), eps=1e-05, elementwise_affine=True) (dropout): Dropout(p=0.1, inplace=False) ) ) (intermediate): RobertaIntermediate( (dense): Linear(in_features=768, out_features=3072, bias=True) (intermediate_act_fn): GELUActivation() ) (output): RobertaOutput( (dense): Linear(in_features=3072, out_features=768, bias=True) (LayerNorm): LayerNorm((768,), eps=1e-05, elementwise_affine=True) (dropout): Dropout(p=0.1, inplace=False) ) ) ) ) (pooler): RobertaPooler( (dense): Linear(in_features=768, out_features=768, bias=True) (activation): Tanh() ) )
谷歌TPU。
Hardware谷歌TPU v3-8
Softwarepytorch, transformers.
@article{Niklaus2023MultiLegalPileA6, title={MultiLegalPile: A 689GB Multilingual Legal Corpus}, author={Joel Niklaus and Veton Matoshi and Matthias Sturmer and Ilias Chalkidis and Daniel E. Ho}, journal={ArXiv}, year={2023}, volume={abs/2306.02069} }
Joel Niklaus: huggingface ;电子邮件
Veton Matoshi: huggingface ;电子邮件
Joel Niklaus: huggingface ;电子邮件
Veton Matoshi: huggingface ;电子邮件