英文

(BERT base)法律领域葡萄牙语语言建模

legal-bert-base-cased-ptbr是一个基于模型 BERTimbau base 的葡萄牙语法律领域语言模型,使用MASK目标。

该模型旨在支持法律领域、计算机法律和法律技术应用的自然语言处理研究。使用了多个葡萄牙语法律文本(详细信息如下)。

大版本模型即将推出。

预训练语料库

legal-bert-base-cased-ptbr的预训练语料库包括:

  • 61309 - Documentos juridicos diversos |(各种法律文件)
  • 751 - Petições(Recurso Extraordinário JEC)|(请愿书)
  • 682 - Sentenças |(判决)
  • 498 - Acordãos 2º Instancia |(第二审裁决)
  • 469 - Agravos Recurso extraordinário |(上诉抗辩)
  • 411 - Despacho de Admissibilidade |(受理通知书)

所使用的数据由巴西联邦最高法院提供,根据使用条款: LREC 2020

本项目的结果不以任何方式表明巴西联邦最高法院的立场,一切责任由模型的作者承担。

加载预训练模型

from transformers import AutoTokenizer, AutoModel

tokenizer = AutoTokenizer.from_pretrained("dominguesm/legal-bert-base-cased-ptbr")
model = AutoModel.from_pretrained("dominguesm/legal-bert-base-cased-ptbr")

# OR

from transformers import pipeline

pipe = pipeline('fill-mask', "dominguesm/legal-bert-base-cased-ptbr")

使用法律-bert-base-cased-ptbr变体作为语言模型

Text Masked token Predictions
De ordem, a Secretaria Judiciária do Supremo Tribunal Federal INTIMA a parte abaixo identificada, ou quem as suas vezes fizer, do inteiro teor do(a) despacho/decisão presente nos autos (art. 270 do Código de Processo [MASK] e art 5º da Lei 11.419/2006). Civil ('Civil', 0.9999), ('civil', 0.0001), ('Penal', 0.0000), ('eletrônico', 0.0000), ('2015', 0.0000)
2. INTIMAÇÃO da Autarquia: 2.2 Para que apresente em Juízo, com a contestação, cópia do processo administrativo referente ao benefício [MASK] em discussão na lide previdenciário ('ora', 0.9424), ('administrativo', 0.0202), ('doença', 0.0117), ('acidente', 0.0037), ('posto', 0.0036)
Certifico que, nesta data, os presentes autos foram remetidos ao [MASK] para processar e julgar recurso (Agravo de Instrumento). STF ('Tribunal', 0.4278), ('Supremo', 0.1657), ('origem', 0.1538), ('arquivo', 0.1415), ('sistema', 0.0216)
TEMA: 810. Validade da correção monetária e dos juros moratórios [MASK] sobre as condenações impostas à Fazenda Pública, conforme previstos no art. 1º-F da Lei 9.494/1997, com a redação dada pela Lei 11.960/2009. incidentes ('incidentes', 0.9979), ('incidente', 0.0021), ('aplicados', 0.0000), (',', 0.0000), ('aplicada', 0.0000)

培训结果

Num examples = 353435
Num Epochs = 3
Instantaneous batch size per device = 4
Total train batch size (w. parallel, distributed & accumulation) = 32
Gradient Accumulation steps = 1
Total optimization steps = 33135

TRAIN RESULTS

"epoch": 3.0
"train_loss": 0.6107781137512769
"train_runtime": 10192.1545
"train_samples": 353435
"train_samples_per_second": 104.031
"train_steps_per_second": 3.251

EVAL RESULTS

"epoch": 3.0
"eval_loss": 0.47251805663108826
"eval_runtime": 126.3026
"eval_samples": 17878
"eval_samples_per_second": 141.549
"eval_steps_per_second": 4.426
"perplexity": 1.604028145934512

引用

@misc{domingues2022legal-bert-base-cased-ptbr,
      author = {Domingues, Maicon}
      title = {Language Model in the legal domain in Portuguese},
      year={2022},
      howpublished= {\url{https://huggingface.co/dominguesm/legal-bert-base-cased-ptbr/}}
}