数据集:

lener_br

源数据集:

original

批注创建人:

expert-generated

语言创建人:

expert-generated

大小:

10K<n<100K

计算机处理:

monolingual

语言:

pt
英文

leNER-br 数据集卡

数据集简介

leNER-Br是一个用于在法律文件中进行命名实体识别的葡萄牙语数据集。leNER-Br完全由手动注释的立法和法律案例文本组成,包含了人物、地点、时间实体、组织、立法和法律案例的标签。该数据集从巴西多个法院收集了66个法律文件。考虑了最高法院、上诉法院、矿山州法院和版图联邦审计法院等所在的上级和州级法院。此外,还收集了四个立法文件,例如“Maria da Penha法”。总计有70个文档。

支持的任务和排行榜

[需要更多信息]

语言

支持的语言为葡萄牙语。

数据集结构

数据示例

数据集中的一个示例如下所示:

{
  "id": "0",
  "ner_tags": [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 2, 0, 0, 0],
  "tokens": [
    "EMENTA", ":", "APELAÇÃO", "CÍVEL", "-", "AÇÃO", "DE", "INDENIZAÇÃO", "POR", "DANOS", "MORAIS", "-", "PRELIMINAR", "-", "ARGUIDA", "PELO", "MINISTÉRIO", "PÚBLICO", "EM", "GRAU", "RECURSAL"]
}

数据字段

  • id:样本的ID
  • tokens:示例文本的标记
  • ner_tags:每个标记的NER标签

NER标签对应的列表如下:

"O", "B-ORGANIZACAO", "I-ORGANIZACAO", "B-PESSOA", "I-PESSOA", "B-TEMPO", "I-TEMPO", "B-LOCAL", "I-LOCAL", "B-LEGISLACAO", "I-LEGISLACAO", "B-JURISPRUDENCIA", "I-JURISPRUDENCIA"

NER标签的格式与CoNLL共享任务中的格式相同:B表示短语的第一个词,I表示非起始词。

数据拆分

数据集已拆分为训练集、验证集和测试集。拆分比例如下:

Train Val Test
7828 1177 1390

数据集创建

筛选原因

[需要更多信息]

源数据

初始数据收集和归一化

[需要更多信息]

谁是源语言的生产者?

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据集的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集的创建者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

@inproceedings{luz_etal_propor2018,
      author = {Pedro H. {Luz de Araujo} and Te\'{o}filo E. {de Campos} and
      Renato R. R. {de Oliveira} and Matheus Stauffer and
      Samuel Couto and Paulo Bermejo},
      title = {{LeNER-Br}: a Dataset for Named Entity Recognition in {Brazilian} Legal Text},
      booktitle = {International Conference on the Computational Processing of Portuguese ({PROPOR})},
      publisher = {Springer},
      series = {Lecture Notes on Computer Science ({LNCS})},
      pages = {313--323},
      year = {2018},
      month = {September 24-26},
      address = {Canela, RS, Brazil},	  
      doi = {10.1007/978-3-319-99722-3_32},
      url = {https://cic.unb.br/~teodecampos/LeNER-Br/},
}	

贡献者

感谢 @jonatasgrosman 添加了该数据集。