英文

(BERT base) 在葡萄牙语法律领域的语言建模(LeNER-Br)

bert-base-cased-pt-lenerbr 是一个在葡萄牙语法律领域进行微调的语言模型,该模型于2021年12月20日在Google Colab上使用模型 BERTimbau base 和数据集 LeNER-Br language modeling 进行微调,使用了MASK目标。

您也可以查看 version large of this model

博客文章

该语言模型用于在葡萄牙语司法领域中获取NER模型。您可以在 pierreguillou/ner-bert-base-cased-pt-lenerbr 上查看微调后的NER模型。

所有信息和链接都在这篇博客文章中: NLP | Modelos e Web App para Reconhecimento de Entidade Nomeada (NER) no domínio jurídico brasileiro (2021年12月29日)

小部件和应用程序

您可以在此页面的小部件中测试此模型。

在生产中使用该模型进行推断

# install pytorch: check https://pytorch.org/
# !pip install transformers 
from transformers import AutoTokenizer, AutoModelForMaskedLM

tokenizer = AutoTokenizer.from_pretrained("pierreguillou/bert-base-cased-pt-lenerbr")
model = AutoModelForMaskedLM.from_pretrained("pierreguillou/bert-base-cased-pt-lenerbr")

训练过程

Notebook

微调的笔记本( Finetuning_language_model_BERtimbau_LeNER_Br.ipynb )位于GitHub上。

训练结果

Num examples = 3227
Num Epochs = 5
Instantaneous batch size per device = 8
Total train batch size (w. parallel, distributed & accumulation) = 8
Gradient Accumulation steps = 1
Total optimization steps = 2020

Step	Training Loss	Validation Loss
100	 1.988700	     1.616412
200	 1.724900	     1.561100
300	 1.713400	     1.499991
400	 1.687400	     1.451414
500	 1.579700	     1.433665
600	 1.556900	     1.407338
700	 1.591400	     1.421942
800	 1.546000	     1.406395
900	 1.510100	     1.352389
1000	1.507100     	1.394799
1100	1.462200     	1.36809373471