模型:

readerbench/jurBERT-base

英文

jurBERT-base 模型卡

语言:

  • ro

jurBERT-base

面向罗马尼亚语的预训练法律BERT模型

使用掩码语言建模(MLM)和下一个句子预测(NSP)目标来训练的BERT罗马尼亚语法律模型。它在此 paper 中被介绍。发布了两个BERT模型: jurBERT-base 和 jurBERT-large ,所有版本均为无大小写区分的。

Model Weights L H A MLM accuracy NSP accuracy
jurBERT-base 111M 12 768 12 0.8936 0.9923
jurBERT-large 337M 24 1024 24 0.9005 0.9929

所有模型都可用:

如何使用
# tensorflow
from transformers import AutoModel, AutoTokenizer, TFAutoModel
tokenizer = AutoTokenizer.from_pretrained("readerbench/jurBERT-base")
model = TFAutoModel.from_pretrained("readerbench/jurBERT-base")
inputs = tokenizer("exemplu de propoziție", return_tensors="tf")
outputs = model(inputs)


# pytorch
from transformers import AutoModel, AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("readerbench/jurBERT-base")
model = AutoModel.from_pretrained("readerbench/jurBERT-base")
inputs = tokenizer("exemplu de propoziție", return_tensors="pt")
outputs = model(**inputs)

数据集

该模型是在一个私有语料库上进行训练的(尽管可以通过付费租用),此语料库包含2010年至2018年之间由任何罗马尼亚民事法院发布的所有终审裁决书,包括民事和刑事案件。验证是在其他两个数据集RoBanking和BRDCases上进行的。我们从RoJur中提取了与银行领域相关的常见案件类型(例如,管理费诉讼、执行上诉),仅保留原告和被告提供的论据摘要以及最终判决结果(布尔值形式)来构建RoBanking。BRDCases是一个包含BRD Société Générale Romania直接参与的案件集合。

Corpus Scope Entries Size (GB)
RoJur pre-training 11M 160
RoBanking downstream 108k -
BRDCases downstream 149 -

下游性能

我们报告了预测案件结果时的平均AUC和标准AUC。

仅使用原告的辩护词的RoBanking结果。

Model Mean AUC Std AUC
CNN 79.60 -
BI-LSTM 80.99 0.26
RoBERT-small 70.54 0.28
RoBERT-base 79.74 0.21
RoBERT-base + hf 79.82 0.11
RoBERT-large 76.53 5.43
jurBERT-base 81.47 0.18
jurBERT-base + hf 81.40 0.18
jurBERT-large 78.38 1.77

使用原告和被告的辩护词的RoBanking结果。

Model Mean AUC Std AUC
BI-LSTM 84.60 0.59
RoBERT-base 84.40 0.26
RoBERT-base + hf 84.43 0.15
jurBERT-base 86.63 0.18
jurBERT-base + hf 86.73 0.22
jurBERT-large 82.04 0.64

BRDCases结果

Model Mean AUC Std AUC
SVM with SK 57.72 2.15
RoBERT-base 53.24 1.76
RoBERT-base + hf 55.40 0.96
jurBERT-base 59.65 1.16
jurBERT-base + hf 61.46 1.76

有关完整的结果和讨论,请参阅 paper .

BibTeX条目和引文信息

@inproceedings{masala2021jurbert,
  title={jurBERT: A Romanian BERT Model for Legal Judgement Prediction},
  author={Masala, Mihai and Iacob, Radu Cristian Alexandru and Uban, Ana Sabina and Cidota, Marina and Velicu, Horia and Rebedea, Traian and Popescu, Marius},
  booktitle={Proceedings of the Natural Legal Language Processing Workshop 2021},
  pages={86--94},
  year={2021}
}