模型:
readerbench/jurBERT-base
其他:
bertjurBERT-base 模型卡
语言:
使用掩码语言建模(MLM)和下一个句子预测(NSP)目标来训练的BERT罗马尼亚语法律模型。它在此 paper 中被介绍。发布了两个BERT模型: jurBERT-base 和 jurBERT-large ,所有版本均为无大小写区分的。
Model | Weights | L | H | A | MLM accuracy | NSP accuracy |
---|---|---|---|---|---|---|
jurBERT-base | 111M | 12 | 768 | 12 | 0.8936 | 0.9923 |
jurBERT-large | 337M | 24 | 1024 | 24 | 0.9005 | 0.9929 |
所有模型都可用:
如何使用# tensorflow from transformers import AutoModel, AutoTokenizer, TFAutoModel tokenizer = AutoTokenizer.from_pretrained("readerbench/jurBERT-base") model = TFAutoModel.from_pretrained("readerbench/jurBERT-base") inputs = tokenizer("exemplu de propoziție", return_tensors="tf") outputs = model(inputs) # pytorch from transformers import AutoModel, AutoTokenizer, AutoModel tokenizer = AutoTokenizer.from_pretrained("readerbench/jurBERT-base") model = AutoModel.from_pretrained("readerbench/jurBERT-base") inputs = tokenizer("exemplu de propoziție", return_tensors="pt") outputs = model(**inputs)
该模型是在一个私有语料库上进行训练的(尽管可以通过付费租用),此语料库包含2010年至2018年之间由任何罗马尼亚民事法院发布的所有终审裁决书,包括民事和刑事案件。验证是在其他两个数据集RoBanking和BRDCases上进行的。我们从RoJur中提取了与银行领域相关的常见案件类型(例如,管理费诉讼、执行上诉),仅保留原告和被告提供的论据摘要以及最终判决结果(布尔值形式)来构建RoBanking。BRDCases是一个包含BRD Société Générale Romania直接参与的案件集合。
Corpus | Scope | Entries | Size (GB) |
---|---|---|---|
RoJur | pre-training | 11M | 160 |
RoBanking | downstream | 108k | - |
BRDCases | downstream | 149 | - |
我们报告了预测案件结果时的平均AUC和标准AUC。
Model | Mean AUC | Std AUC |
---|---|---|
CNN | 79.60 | - |
BI-LSTM | 80.99 | 0.26 |
RoBERT-small | 70.54 | 0.28 |
RoBERT-base | 79.74 | 0.21 |
RoBERT-base + hf | 79.82 | 0.11 |
RoBERT-large | 76.53 | 5.43 |
jurBERT-base | 81.47 | 0.18 |
jurBERT-base + hf | 81.40 | 0.18 |
jurBERT-large | 78.38 | 1.77 |
Model | Mean AUC | Std AUC |
---|---|---|
BI-LSTM | 84.60 | 0.59 |
RoBERT-base | 84.40 | 0.26 |
RoBERT-base + hf | 84.43 | 0.15 |
jurBERT-base | 86.63 | 0.18 |
jurBERT-base + hf | 86.73 | 0.22 |
jurBERT-large | 82.04 | 0.64 |
Model | Mean AUC | Std AUC |
---|---|---|
SVM with SK | 57.72 | 2.15 |
RoBERT-base | 53.24 | 1.76 |
RoBERT-base + hf | 55.40 | 0.96 |
jurBERT-base | 59.65 | 1.16 |
jurBERT-base + hf | 61.46 | 1.76 |
有关完整的结果和讨论,请参阅 paper .
@inproceedings{masala2021jurbert, title={jurBERT: A Romanian BERT Model for Legal Judgement Prediction}, author={Masala, Mihai and Iacob, Radu Cristian Alexandru and Uban, Ana Sabina and Cidota, Marina and Velicu, Horia and Rebedea, Traian and Popescu, Marius}, booktitle={Proceedings of the Natural Legal Language Processing Workshop 2021}, pages={86--94}, year={2021} }