legal-bert-base-cased-ptbr是一个基于模型 BERTimbau base 的葡萄牙语法律领域语言模型,使用MASK目标。
该模型旨在支持法律领域、计算机法律和法律技术应用的自然语言处理研究。使用了多个葡萄牙语法律文本(详细信息如下)。
大版本模型即将推出。
legal-bert-base-cased-ptbr的预训练语料库包括:
所使用的数据由巴西联邦最高法院提供,根据使用条款: LREC 2020 。
本项目的结果不以任何方式表明巴西联邦最高法院的立场,一切责任由模型的作者承担。
from transformers import AutoTokenizer, AutoModel tokenizer = AutoTokenizer.from_pretrained("dominguesm/legal-bert-base-cased-ptbr") model = AutoModel.from_pretrained("dominguesm/legal-bert-base-cased-ptbr") # OR from transformers import pipeline pipe = pipeline('fill-mask', "dominguesm/legal-bert-base-cased-ptbr")
Text | Masked token | Predictions |
---|---|---|
De ordem, a Secretaria Judiciária do Supremo Tribunal Federal INTIMA a parte abaixo identificada, ou quem as suas vezes fizer, do inteiro teor do(a) despacho/decisão presente nos autos (art. 270 do Código de Processo [MASK] e art 5º da Lei 11.419/2006). | Civil | ('Civil', 0.9999), ('civil', 0.0001), ('Penal', 0.0000), ('eletrônico', 0.0000), ('2015', 0.0000) |
2. INTIMAÇÃO da Autarquia: 2.2 Para que apresente em Juízo, com a contestação, cópia do processo administrativo referente ao benefício [MASK] em discussão na lide | previdenciário | ('ora', 0.9424), ('administrativo', 0.0202), ('doença', 0.0117), ('acidente', 0.0037), ('posto', 0.0036) |
Certifico que, nesta data, os presentes autos foram remetidos ao [MASK] para processar e julgar recurso (Agravo de Instrumento). | STF | ('Tribunal', 0.4278), ('Supremo', 0.1657), ('origem', 0.1538), ('arquivo', 0.1415), ('sistema', 0.0216) |
TEMA: 810. Validade da correção monetária e dos juros moratórios [MASK] sobre as condenações impostas à Fazenda Pública, conforme previstos no art. 1º-F da Lei 9.494/1997, com a redação dada pela Lei 11.960/2009. | incidentes | ('incidentes', 0.9979), ('incidente', 0.0021), ('aplicados', 0.0000), (',', 0.0000), ('aplicada', 0.0000) |
Num examples = 353435 Num Epochs = 3 Instantaneous batch size per device = 4 Total train batch size (w. parallel, distributed & accumulation) = 32 Gradient Accumulation steps = 1 Total optimization steps = 33135 TRAIN RESULTS "epoch": 3.0 "train_loss": 0.6107781137512769 "train_runtime": 10192.1545 "train_samples": 353435 "train_samples_per_second": 104.031 "train_steps_per_second": 3.251 EVAL RESULTS "epoch": 3.0 "eval_loss": 0.47251805663108826 "eval_runtime": 126.3026 "eval_samples": 17878 "eval_samples_per_second": 141.549 "eval_steps_per_second": 4.426 "perplexity": 1.604028145934512
@misc{domingues2022legal-bert-base-cased-ptbr, author = {Domingues, Maicon} title = {Language Model in the legal domain in Portuguese}, year={2022}, howpublished= {\url{https://huggingface.co/dominguesm/legal-bert-base-cased-ptbr/}} }