模型:
joelito/legal-swiss-roberta-large
该模型是在法律数据上预训练的多语言模型。它基于XLM-R( base 和 large )。我们使用了来自24种语言的各种法律来源的多语言数据集( Multi Legal Pile )进行预训练。
您可以使用原始模型进行遮蔽语言建模,因为我们没有执行下一个句子预测。然而,它的主要目的是为了在下游任务中进行微调。
需要注意的是,此模型主要设计用于依赖整个句子进行决策的任务的微调,可能包括遮蔽元素。此类任务的示例包括序列分类、标记分类或问答。对于文本生成任务,像GPT-2这样的模型更合适。
此外,该模型专门针对法律数据进行了训练,旨在在该领域提供强大的性能。当应用于非法律数据时,其性能可能会有所变化。
对于文本生成等任务,您应该查看GPT2之类的模型。
不应使用该模型有意创建敌对或疏远人类的环境。该模型训练的目的并不是为了成为人类或事件的事实或真实表示,因此使用该模型生成此类内容超出了该模型的能力范围。
大量研究已经探讨了语言模型的偏见和公平性问题(请参阅,例如, Sheng et al. (2021) 和 Bender et al. (2021) )。模型生成的预测可能包含针对受保护类别、身份特征以及敏感的社会和职业群体的让人不安和有害的刻板印象。
用户(直接用户和下游用户)应了解模型的风险、偏见和局限性。
详见 huggingface tutorials 。有关遮蔽词预测,请参阅 this tutorial 。
该模型是在 Multi Legal Pile ( Niklaus et al. 2023 )上进行预训练的。
我们的预训练过程包括以下关键步骤:
(a)热启动:我们从 Conneau et al. (2019) 的原始XLM-R检查点( base 和 large )初始化我们的模型,以便从训练良好的基础模型受益。
(b)分词:我们训练一个新的128K BPEs的分词器,以更好地涵盖法律语言。但是,我们重复使用原始的XLM-R嵌入来覆盖词汇重叠的标记,并对其余标记使用随机嵌入。
(c)预训练:我们使用512个样本的批次对Multi Legal Pile进行额外的100万/50万步的基本/大型模型预训练。我们使用温升步骤、线性递增的学习率和余弦衰减调度。在温升阶段,只有嵌入层被更新,并且与 Devlin et al. (2019) 相比,使用更高的屏蔽率和基于屏蔽标记的预测百分比。
(d)句子采样:我们使用指数平滑的句子采样器来处理各个州和语言之间不同的标记比例,保留每个州和语言的容量。
(e)大写模型:我们的模型涵盖了大写和小写字母,类似于最近开发的大型PLM。
(f)长文本训练:为了考虑法律文件中的长文本,我们使用窗口化注意力对基本大小的多语言模型进行长文本训练。这个变体名为Legal-Swiss-LF-base,使用了15%的遮蔽概率、增加的学习率和类似小上下文模型的设置。
该模型是在 Multi Legal Pile ( Niklaus et al. 2023 )上进行预训练的。
预处理有关详细信息,请参见 Niklaus et al. 2023
训练超参数有关评估的更多见解,请参阅 trainer state 。有关 LEXTREME ( Niklaus et al. 2023 )或 LEXGLUE ( Chalkidis et al. 2021 )等下游任务的性能,请参阅Niklaus等人(2023年)的结果 1 、 2 。
它是基于RoBERTa的模型。运行以下代码以查看架构:
from transformers import AutoModel model = AutoModel.from_pretrained('model_identifier') print(model) RobertaModel( (embeddings): RobertaEmbeddings( (word_embeddings): Embedding(128000, 1024, padding_idx=0) (position_embeddings): Embedding(514, 1024, padding_idx=0) (token_type_embeddings): Embedding(1, 1024) (LayerNorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True) (dropout): Dropout(p=0.1, inplace=False) ) (encoder): RobertaEncoder( (layer): ModuleList( (0-23): 24 x RobertaLayer( (attention): RobertaAttention( (self): RobertaSelfAttention( (query): Linear(in_features=1024, out_features=1024, bias=True) (key): Linear(in_features=1024, out_features=1024, bias=True) (value): Linear(in_features=1024, out_features=1024, bias=True) (dropout): Dropout(p=0.1, inplace=False) ) (output): RobertaSelfOutput( (dense): Linear(in_features=1024, out_features=1024, bias=True) (LayerNorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True) (dropout): Dropout(p=0.1, inplace=False) ) ) (intermediate): RobertaIntermediate( (dense): Linear(in_features=1024, out_features=4096, bias=True) (intermediate_act_fn): GELUActivation() ) (output): RobertaOutput( (dense): Linear(in_features=4096, out_features=1024, bias=True) (LayerNorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True) (dropout): Dropout(p=0.1, inplace=False) ) ) ) ) (pooler): RobertaPooler( (dense): Linear(in_features=1024, out_features=1024, bias=True) (activation): Tanh() ) )
Google TPU。
硬件Google TPU v3-8
软件pytorch,transformers
@misc{rasiah2023scale, title={SCALE: Scaling up the Complexity for Advanced Language Model Evaluation}, author={Vishvaksenan Rasiah and Ronja Stern and Veton Matoshi and Matthias Stürmer and Ilias Chalkidis and Daniel E. Ho and Joel Niklaus}, year={2023}, eprint={2306.09237}, archivePrefix={arXiv}, primaryClass={cs.CL} } @article{Niklaus2023MultiLegalPileA6, title={MultiLegalPile: A 689GB Multilingual Legal Corpus}, author={Joel Niklaus and Veton Matoshi and Matthias Sturmer and Ilias Chalkidis and Daniel E. Ho}, journal={ArXiv}, year={2023}, volume={abs/2306.02069} }
Joel Niklaus: huggingface ;电子邮件
Veton Matoshi: huggingface ;电子邮件
Joel Niklaus: huggingface ;电子邮件
Veton Matoshi: huggingface ;电子邮件