数据集:
pierreguillou/lener_br_finetuning_language_model
"LeNER-Br语言建模"数据集是来自 " LeNER-Br " 数据集( " official site " )中的葡萄牙语法律文本的集合。
法律文本是从该 " link "(93.6MB)中下载并经过处理,以创建包含训练和验证数据集(20%)的 "DatasetDict"。
"LeNER-Br语言建模"数据集可用于对语言模型(如BERTimbau " base " 和 " large " )进行微调。
巴西葡萄牙语。
" NLP | Modelos e Web App para Reconhecimento de Entidade Nomeada (NER) no domínio jurídico brasileiro "(29/12/2021)
DatasetDict({ validation: Dataset({ features: ['text'], num_rows: 3813 }) train: Dataset({ features: ['text'], num_rows: 15252 }) })"
!pip install datasets from datasets import load_dataset dataset = load_dataset("pierreguillou/lener_br_finetuning_language_model")"