模型:
pierreguillou/bert-base-cased-pt-lenerbr
bert-base-cased-pt-lenerbr 是一个在葡萄牙语法律领域进行微调的语言模型,该模型于2021年12月20日在Google Colab上使用模型 BERTimbau base 和数据集 LeNER-Br language modeling 进行微调,使用了MASK目标。
您也可以查看 version large of this model 。
该语言模型用于在葡萄牙语司法领域中获取NER模型。您可以在 pierreguillou/ner-bert-base-cased-pt-lenerbr 上查看微调后的NER模型。
所有信息和链接都在这篇博客文章中: NLP | Modelos e Web App para Reconhecimento de Entidade Nomeada (NER) no domínio jurídico brasileiro (2021年12月29日)
您可以在此页面的小部件中测试此模型。
# install pytorch: check https://pytorch.org/ # !pip install transformers from transformers import AutoTokenizer, AutoModelForMaskedLM tokenizer = AutoTokenizer.from_pretrained("pierreguillou/bert-base-cased-pt-lenerbr") model = AutoModelForMaskedLM.from_pretrained("pierreguillou/bert-base-cased-pt-lenerbr")
微调的笔记本( Finetuning_language_model_BERtimbau_LeNER_Br.ipynb )位于GitHub上。
Num examples = 3227 Num Epochs = 5 Instantaneous batch size per device = 8 Total train batch size (w. parallel, distributed & accumulation) = 8 Gradient Accumulation steps = 1 Total optimization steps = 2020 Step Training Loss Validation Loss 100 1.988700 1.616412 200 1.724900 1.561100 300 1.713400 1.499991 400 1.687400 1.451414 500 1.579700 1.433665 600 1.556900 1.407338 700 1.591400 1.421942 800 1.546000 1.406395 900 1.510100 1.352389 1000 1.507100 1.394799 1100 1.462200 1.36809373471