数据集:

joelito/german_argument_mining

语言:

de

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

found

源数据集:

original

许可:

cc-by-4.0
英文

德国法律决策语料库数据卡

数据集摘要

该数据集包含200个随机选择的判决书。在这些判决书中,一位法律专家标注了德国法律写作风格“Urteilsstil”的结论、定义和总结部分。

“总共有25,075个句子被标注。其中5%(1,202个)被标记为结论,21%(5,328个)被标记为定义,53%(13,322个)被标记为总结,剩下的21%(6,481个)被标记为其他。判决书的句子长度在38到862个之间。判决书的中位数为97个句子,大多数判决书的长度较短。”(Urchs.等人,2021)

“来自131个法院中的22个判决书被选入语料库。大部分判决书来自VG奥格斯堡(59个/30%),其次是VG安斯巴赫(39个/20%)和LSG慕尼黑(33个/17%)。”(Urchs.等人,2021)

“选择的所有判决书中,29%(58个)是在2016年发布的,接下来是22%(44个)是在2017年发布的,21%(41个)是在2015年发布的。[...]2018年和2019年发布的判决书和决定的比例大致相同。没有选取来自2020年的判决书。”(Urchs.等人,2021)

支持的任务和排行榜

该数据集可以用于多类文本分类任务,具体而言,用于论证挖掘。

语言

该数据集中的语言是德语,它主要用于德国巴伐利亚地区的法院。

数据集结构

数据实例

每个句子都保存为一个json对象,存储在train.jsonl、validation.jsonl或test.jsonl三个文件中的一行中。meta.jsonl文件包含每个法院的元数据。文件编号(file_number)存在于所有文件中以进行标识。法院判决书的每个句子根据其功能进行分类。

数据字段

meta.jsonl文件包含每一行的以下字段:

  • meta_title: 网站提供的标题,用于保存判决书
  • court: 发布判决书的法院
  • decision_style: 判决书的风格;语料库中包含“Urteil”(“判决”)或“Endurteil”(“最终判决”)
  • date: 法院发布判决书的日期
  • file_number: 法院对该判决书使用的标识号
  • title: 法院提供的标题
  • norm_chains: 与判决书相关的规范
  • decision_guidelines: 判决书的简短总结
  • keywords: 与判决书相关的关键词
  • lower_court: 在此判决书之前作出决定的法院
  • additional_information: 附加信息
  • decision_reference: 判决书在beck-online上的位置引用
  • tenor: 法院下达的法律后果的指定(段落列表)
  • legal_facts: 作为判决依据的事实(段落列表)

train.jsonl、validation.jsonl和test.jsonl文件包含以下字段:

  • file_number: 用于与meta.jsonl文件进行关联的标识号
  • input_sentence: 待分类的句子
  • label: 判决书的详细说明。每个句子被分配给德国“Urteilsstil”的主要组成部分中的一个(Urchs等人,2021)(段落列表,每个段落包含句子列表,每个句子用以下四个标签之一进行注释):
    • conclusion: 总体结果
    • definition: 抽象的法律事实和后果
    • subsumption: 确定句/具体事实
    • other: 其他
  • context_before: 输入句子之前的上下文
  • context_after: 输入句子之后的上下文

数据拆分

原始版本未提供拆分。

由Joel Niklaus创建的拆分。我们将数据集随机拆分为80%(160个决定,19271个句子)的训练集,10%的验证集(20个决定,2726个句子)和10%的测试集(20个决定,3078个句子)。我们确保每个决定只出现在一个拆分中,不会分散在多个拆分中。

标签分布

label train validation test
conclusion 975 115 112
definition 4105 614 609
subsumption 10034 1486 1802
other 4157 511 555
total 19271 2726 3078

数据集创建

策划原因

创建一个由法律专家标注的公开可用的德语法律文本语料库,其中包含已被匿名的判决书,该语料库的注释组成部分包括德国法律写作风格“Urteilsstil”的结论、定义和总结。

来源数据

初始数据收集和规范化

“判决书语料库是从网站 www.gesetze-bayern.de 上发布的判决书的集合。在抓取时,该网站提供了31,748个来自131个巴伐利亚法院的判决书,可以追溯到2015年。这些判决书是在法院同意出版后由巴伐利亚州提供的。所有判决书都由巴伐利亚州委托的C.H.BECK出版社进行处理。这个处理过程包括判决书的匿名处理、关键词标记和编辑指南的添加。”(Urchs等人,2021)

资源语言的生产者是谁?

来自巴伐利亚的德国法院

注释

注释过程

“如上所述,判决书语料库由200个随机选择的判决书组成,由一位持有律师资格的专家进行注释,该专家持有第一次律师国家考试资格。由于财务、人员和时间的原因,目前的版本仅由一位专家进行了注释。在将来的版本中,将有多位其他专家对语料库进行注释,并计算注释者间的一致性。”(Urchs等人,2021)

注释者是谁?

一位持有第一次律师国家考试资格的法律专家。

个人和敏感信息

“所有判决书都由巴伐利亚州委托的C.H.BECK出版社进行处理。该处理过程包括匿名处理、关键词标记和编辑指南的添加。”(Urchs等人,2021)

使用数据的注意事项

数据集的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

使用了SoMaJo句子分割器。在对数据集进行手动检查时,我们发现句子分割器在某些情况下的准确性较差(参见convert_to_hf_dataset.py中的analyze_dataset())。在创建拆分时,我们考虑合并小句子与其相邻句子或将它们全部删除。但是,由于我们找不到直接的方法来做到这一点,我们决定保持数据集内容不变。

请注意,此数据集卡中给出的信息是根据Joel Niklaus和Veton Matoshi提供的数据集版本而提供的。本数据集旨在成为一个更大的基准数据集的一部分。创建由不同来源的几个其他数据集组成的基准数据集需要进行后处理。因此,本数据集的结构,包括文件夹结构,可能与原始数据集大不相同。此外,可以预期与给定论文中提供的数据集统计信息存在差异。建议读者查看convert_to_hf_dataset.py的转换脚本,以追溯将原始数据集转换为现有JsonL格式的步骤。有关原始数据集结构的更多信息,请参阅文献引用和本数据集卡中提供的原始GitHub存储库和/或网页。

其他信息

数据集策划者

原始数据集策划者和创建者的姓名可以在下面的参考文献中找到,其中包含引文信息部分。Joel Niklaus(电子邮件; Github )和Veton Matoshi(电子邮件; Github )对数据集进行了其他更改。

许可信息

Creative Commons Attribution 4.0 International

引用信息

@dataset{urchs_stefanie_2020_3936490,
  author       = {Urchs, Stefanie and
                  Mitrović, Jelena},
  title        = {{German legal jugements annotated with judement 
                   style components}},
  month        = jul,
  year         = 2020,
  publisher    = {Zenodo},
  doi          = {10.5281/zenodo.3936490},
  url          = {https://doi.org/10.5281/zenodo.3936490}
}
@conference{icaart21,
  author = {Urchs., Stefanie and Mitrovi{\'{c}}., Jelena and Granitzer., Michael},
  booktitle = {Proceedings of the 13th International Conference on Agents and Artificial Intelligence - Volume 2: ICAART,},
  doi = {10.5220/0010187305150521},
  isbn = {978-989-758-484-8},
  issn = {2184-433X},
  organization = {INSTICC},
  pages = {515--521},
  publisher = {SciTePress},
  title = {{Design and Implementation of German Legal Decision Corpora}},
  year = {2021}
}

贡献

感谢 @kapllan @joelniklaus 添加了这个数据集。