数据集:

pierreguillou/lener_br_finetuning_language_model

语言:

pt

计算机处理:

monolingual

其他:

lener_br
英文

"LeNER-Br语言建模" 数据集卡片

数据集摘要

"LeNER-Br语言建模"数据集是来自 " LeNER-Br " 数据集( " official site " )中的葡萄牙语法律文本的集合。

法律文本是从该 " link "(93.6MB)中下载并经过处理,以创建包含训练和验证数据集(20%)的 "DatasetDict"。

"LeNER-Br语言建模"数据集可用于对语言模型(如BERTimbau " base " 和 " large " )进行微调。

语言

巴西葡萄牙语。

博客文章

" NLP | Modelos e Web App para Reconhecimento de Entidade Nomeada (NER) no domínio jurídico brasileiro "(29/12/2021)

数据集结构

"
DatasetDict({
    validation: Dataset({
        features: ['text'],
        num_rows: 3813
    })
    train: Dataset({
        features: ['text'],
        num_rows: 15252
    })
})
"

使用

"
!pip install datasets
from datasets import load_dataset

dataset = load_dataset("pierreguillou/lener_br_finetuning_language_model")
"