数据集:

joelito/brazilian_court_decisions

语言:

pt

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

found

批注创建人:

found

源数据集:

original

预印本库:

arxiv:1905.10348

许可:

other
英文

预测巴西法庭裁决的数据集卡片

数据集概述

该数据集是来自巴西阿拉戈斯州高级法院(TJAL)的4043个判决摘要及其元数据的集合。根据7个类别对法院判决进行了标记,并确定了法官是否一致同意。数据集可用于进行法律判决预测任务。

支持的任务和排行榜

法律判决预测

语言

巴西葡萄牙语

数据集结构

数据实例

文件格式为jsonl,并针对每个配置提供了三个数据拆分(训练、验证和测试)。

数据字段

该数据集包含以下字段:

  • process_number: 法院对决定的编号
  • orgao_julgador: 判决机构,可以是'1ª Câmara Cível'、'2ª Câmara Cível'、'3ª Câmara Cível'、'Câmara Criminal'、'Tribunal Pleno'、'Seção Especializada Cível'
  • publish_date: 判决公布的日期(2018年12月14日-2019年4月3日)。在那个时候(2018-2019年),爬虫脚本有限制,无法根据日期范围获取数据。因此,只爬取了最后几个月的数据。
  • judge_relator: 司法小组
  • ementa_text: 法院判决摘要
  • decision_description: 建议的输入。对应于ementa_text - judgment_text - unanimity_text。基本统计信息(字数):平均值:119,中位数:88,最小值:12,最大值:1400
  • judgment_text: 用于确定判决标签的文本
  • judgment_label: 主要建议的标签。用于判决预测的标签有:
    • no: 拒绝上诉
    • partial: 部分有利的决定
    • yes: 全面有利的决定
    • 移除的标签(原始数据集中存在的):
      • conflito-competencia: 元决定。例如,一个决定只是告诉法院A应该裁决此案而不是法院B
      • not-cognized: 上诉未被法院接受审理
      • prejudicada: 案件因诸如上诉人死亡或放弃案件等障碍而不能裁决
  • unanimity_text: 用葡萄牙语描述决定是否一致
  • unanimity_label: 次要建议的标签。统一的标签用于描述决定是否一致(某些情况下包含not_determined),也可用于模型训练(Lage-Freitas等,2019)。

数据拆分

数据已随机分为80%的训练集(3234个)、10%的验证集(404个)和10%的测试集(405个)。

该数据集可以进行两种任务。

判决

标签分布

judgment train validation test
no 1960 221 234
partial 677 96 93
yes 597 87 78
total 3234 404 405
一致性

在这种情况下,可以删除所有具有unanimity_label为not_determined的案例。

标签分布

unanimity_label train validation test
not_determined 1519 193 201
unanimity 1681 205 200
not-unanimity 34 6 4
total 3234 404 405

数据集创建

策划理由

创建此数据集是为了进一步研究开发能够预测巴西法庭裁决并能够预测判决是否一致的模型。

数据源

数据是从阿拉戈斯州高级法院(TJAL)爬取得到的。

初始数据收集和标准化

“我们开发了一个网络爬虫来收集巴西法院的数据。爬虫首先搜索包含法庭案件列表的URL[...]。然后,爬虫从这些HTML文件中提取特定案例的URL并下载其数据[...]。接下来,它提取法律案件的元数据和内容,并以CSV文件格式存储[...]。”(Lage-Freitas等,2022)

数据源语言的产生者是谁?

数据源语言的产生者可能是律师、法官和其他法律专业人员。

注释

注释过程

该数据集没有进行注释。

注释者是谁?

[需要更多信息]

个人和敏感信息

法庭决定可能包含有关个人的敏感信息。

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

请注意,本数据集卡片中提供的信息是指由Joel Niklaus和Veton Matoshi提供的数据集版本。现有的数据集旨在成为一个更大的基准数据集的一部分。创建包括来自不同来源的多个其他数据集的基准数据集需要进行后处理。因此,本数据集的结构,包括文件夹结构,可能与原始数据集大不相同。此外,与给定论文中给出的数据集统计信息的差异可预料。建议读者查看convert_to_hf_dataset.py转换脚本,以追溯将原始数据集转换为当前jsonl格式的步骤。有关原始数据集结构的更多信息,请参阅文献引用和本数据集卡片中提供的原始Github存储库和/或网页。

其他信息

Lage-Freitas, A., Allende-Cid, H., Santana Jr, O., & Oliveira-Lage, L. (2019). Predicting Brazilian court decisions:

  • "在巴西[...]低级法院的判决可能被上诉至巴西法院(Tribiunais de Justiça)由二审法院法官进行审查。在上诉法院中,法官们共同决定案件,并将其决定汇编成名为Acóordãos的协议报告。"

数据集策展者

原始数据集的策展者和创建者的姓名可在下面的参考文献中找到,位于“引用信息”部分。 Joel Niklaus(电子邮件: Github )和Veton Matoshi(电子邮件: Github )进行了其他更改。

许可信息

该数据集未提供许可信息。但请确保您根据巴西法律使用数据集。

引用信息

@misc{https://doi.org/10.48550/arxiv.1905.10348,
  author = {Lage-Freitas, Andr{\'{e}} and Allende-Cid, H{\'{e}}ctor and Santana, Orivaldo and de Oliveira-Lage, L{\'{i}}via},
  doi = {10.48550/ARXIV.1905.10348},
  keywords = {Computation and Language (cs.CL),FOS: Computer and information sciences,Social and Information Networks (cs.SI)},
  publisher = {arXiv},
  title = {{Predicting Brazilian court decisions}},
  url = {https://arxiv.org/abs/1905.10348},
  year = {2019}
}
@article{Lage-Freitas2022,
  author = {Lage-Freitas, Andr{\'{e}} and Allende-Cid, H{\'{e}}ctor and Santana, Orivaldo and Oliveira-Lage, L{\'{i}}via},
  doi = {10.7717/peerj-cs.904},
  issn = {2376-5992},
  journal = {PeerJ. Computer science},
  keywords = {Artificial intelligence,Jurimetrics,Law,Legal,Legal NLP,Legal informatics,Legal outcome forecast,Litigation prediction,Machine learning,NLP,Portuguese,Predictive algorithms,judgement prediction},
  language = {eng},
  month = {mar},
  pages = {e904--e904},
  publisher = {PeerJ Inc.},
  title = {{Predicting Brazilian Court Decisions}},
  url = {https://pubmed.ncbi.nlm.nih.gov/35494851 https://www.ncbi.nlm.nih.gov/pmc/articles/PMC9044329/},
  volume = {8},
  year = {2022}
}

贡献

感谢 @kapllan @joelniklaus 添加了此数据集。