数据集:
lener_br
许可:
license:unknown源数据集:
original批注创建人:
expert-generated语言创建人:
expert-generated大小:
10K<n<100K计算机处理:
monolingual语言:
pt任务:
标记分类leNER-Br是一个用于在法律文件中进行命名实体识别的葡萄牙语数据集。leNER-Br完全由手动注释的立法和法律案例文本组成,包含了人物、地点、时间实体、组织、立法和法律案例的标签。该数据集从巴西多个法院收集了66个法律文件。考虑了最高法院、上诉法院、矿山州法院和版图联邦审计法院等所在的上级和州级法院。此外,还收集了四个立法文件,例如“Maria da Penha法”。总计有70个文档。
[需要更多信息]
支持的语言为葡萄牙语。
数据集中的一个示例如下所示:
{ "id": "0", "ner_tags": [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 2, 0, 0, 0], "tokens": [ "EMENTA", ":", "APELAÇÃO", "CÍVEL", "-", "AÇÃO", "DE", "INDENIZAÇÃO", "POR", "DANOS", "MORAIS", "-", "PRELIMINAR", "-", "ARGUIDA", "PELO", "MINISTÉRIO", "PÚBLICO", "EM", "GRAU", "RECURSAL"] }
NER标签对应的列表如下:
"O", "B-ORGANIZACAO", "I-ORGANIZACAO", "B-PESSOA", "I-PESSOA", "B-TEMPO", "I-TEMPO", "B-LOCAL", "I-LOCAL", "B-LEGISLACAO", "I-LEGISLACAO", "B-JURISPRUDENCIA", "I-JURISPRUDENCIA"
NER标签的格式与CoNLL共享任务中的格式相同:B表示短语的第一个词,I表示非起始词。
数据集已拆分为训练集、验证集和测试集。拆分比例如下:
Train | Val | Test |
---|---|---|
7828 | 1177 | 1390 |
[需要更多信息]
[需要更多信息]
谁是源语言的生产者?[需要更多信息]
[需要更多信息]
注释者是谁?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
@inproceedings{luz_etal_propor2018, author = {Pedro H. {Luz de Araujo} and Te\'{o}filo E. {de Campos} and Renato R. R. {de Oliveira} and Matheus Stauffer and Samuel Couto and Paulo Bermejo}, title = {{LeNER-Br}: a Dataset for Named Entity Recognition in {Brazilian} Legal Text}, booktitle = {International Conference on the Computational Processing of Portuguese ({PROPOR})}, publisher = {Springer}, series = {Lecture Notes on Computer Science ({LNCS})}, pages = {313--323}, year = {2018}, month = {September 24-26}, address = {Canela, RS, Brazil}, doi = {10.1007/978-3-319-99722-3_32}, url = {https://cic.unb.br/~teodecampos/LeNER-Br/}, }
感谢 @jonatasgrosman 添加了该数据集。