数据集:
joelito/brazilian_court_decisions
任务:
文本分类语言:
pt计算机处理:
monolingual大小:
1K<n<10K语言创建人:
found批注创建人:
found源数据集:
original预印本库:
arxiv:1905.10348许可:
other该数据集是来自巴西阿拉戈斯州高级法院(TJAL)的4043个判决摘要及其元数据的集合。根据7个类别对法院判决进行了标记,并确定了法官是否一致同意。数据集可用于进行法律判决预测任务。
法律判决预测
巴西葡萄牙语
文件格式为jsonl,并针对每个配置提供了三个数据拆分(训练、验证和测试)。
该数据集包含以下字段:
数据已随机分为80%的训练集(3234个)、10%的验证集(404个)和10%的测试集(405个)。
该数据集可以进行两种任务。
判决标签分布
judgment | train | validation | test |
---|---|---|---|
no | 1960 | 221 | 234 |
partial | 677 | 96 | 93 |
yes | 597 | 87 | 78 |
total | 3234 | 404 | 405 |
在这种情况下,可以删除所有具有unanimity_label为not_determined的案例。
标签分布
unanimity_label | train | validation | test |
---|---|---|---|
not_determined | 1519 | 193 | 201 |
unanimity | 1681 | 205 | 200 |
not-unanimity | 34 | 6 | 4 |
total | 3234 | 404 | 405 |
创建此数据集是为了进一步研究开发能够预测巴西法庭裁决并能够预测判决是否一致的模型。
数据是从阿拉戈斯州高级法院(TJAL)爬取得到的。
初始数据收集和标准化“我们开发了一个网络爬虫来收集巴西法院的数据。爬虫首先搜索包含法庭案件列表的URL[...]。然后,爬虫从这些HTML文件中提取特定案例的URL并下载其数据[...]。接下来,它提取法律案件的元数据和内容,并以CSV文件格式存储[...]。”(Lage-Freitas等,2022)
数据源语言的产生者是谁?数据源语言的产生者可能是律师、法官和其他法律专业人员。
该数据集没有进行注释。
注释者是谁?[需要更多信息]
法庭决定可能包含有关个人的敏感信息。
[需要更多信息]
[需要更多信息]
请注意,本数据集卡片中提供的信息是指由Joel Niklaus和Veton Matoshi提供的数据集版本。现有的数据集旨在成为一个更大的基准数据集的一部分。创建包括来自不同来源的多个其他数据集的基准数据集需要进行后处理。因此,本数据集的结构,包括文件夹结构,可能与原始数据集大不相同。此外,与给定论文中给出的数据集统计信息的差异可预料。建议读者查看convert_to_hf_dataset.py转换脚本,以追溯将原始数据集转换为当前jsonl格式的步骤。有关原始数据集结构的更多信息,请参阅文献引用和本数据集卡片中提供的原始Github存储库和/或网页。
Lage-Freitas, A., Allende-Cid, H., Santana Jr, O., & Oliveira-Lage, L. (2019). Predicting Brazilian court decisions:
原始数据集的策展者和创建者的姓名可在下面的参考文献中找到,位于“引用信息”部分。 Joel Niklaus(电子邮件: Github )和Veton Matoshi(电子邮件: Github )进行了其他更改。
该数据集未提供许可信息。但请确保您根据巴西法律使用数据集。
@misc{https://doi.org/10.48550/arxiv.1905.10348, author = {Lage-Freitas, Andr{\'{e}} and Allende-Cid, H{\'{e}}ctor and Santana, Orivaldo and de Oliveira-Lage, L{\'{i}}via}, doi = {10.48550/ARXIV.1905.10348}, keywords = {Computation and Language (cs.CL),FOS: Computer and information sciences,Social and Information Networks (cs.SI)}, publisher = {arXiv}, title = {{Predicting Brazilian court decisions}}, url = {https://arxiv.org/abs/1905.10348}, year = {2019} }
@article{Lage-Freitas2022, author = {Lage-Freitas, Andr{\'{e}} and Allende-Cid, H{\'{e}}ctor and Santana, Orivaldo and Oliveira-Lage, L{\'{i}}via}, doi = {10.7717/peerj-cs.904}, issn = {2376-5992}, journal = {PeerJ. Computer science}, keywords = {Artificial intelligence,Jurimetrics,Law,Legal,Legal NLP,Legal informatics,Legal outcome forecast,Litigation prediction,Machine learning,NLP,Portuguese,Predictive algorithms,judgement prediction}, language = {eng}, month = {mar}, pages = {e904--e904}, publisher = {PeerJ Inc.}, title = {{Predicting Brazilian Court Decisions}}, url = {https://pubmed.ncbi.nlm.nih.gov/35494851 https://www.ncbi.nlm.nih.gov/pmc/articles/PMC9044329/}, volume = {8}, year = {2022} }
感谢 @kapllan 和 @joelniklaus 添加了此数据集。