数据集:
joelito/german_argument_mining
该数据集包含200个随机选择的判决书。在这些判决书中,一位法律专家标注了德国法律写作风格“Urteilsstil”的结论、定义和总结部分。
“总共有25,075个句子被标注。其中5%(1,202个)被标记为结论,21%(5,328个)被标记为定义,53%(13,322个)被标记为总结,剩下的21%(6,481个)被标记为其他。判决书的句子长度在38到862个之间。判决书的中位数为97个句子,大多数判决书的长度较短。”(Urchs.等人,2021)
“来自131个法院中的22个判决书被选入语料库。大部分判决书来自VG奥格斯堡(59个/30%),其次是VG安斯巴赫(39个/20%)和LSG慕尼黑(33个/17%)。”(Urchs.等人,2021)
“选择的所有判决书中,29%(58个)是在2016年发布的,接下来是22%(44个)是在2017年发布的,21%(41个)是在2015年发布的。[...]2018年和2019年发布的判决书和决定的比例大致相同。没有选取来自2020年的判决书。”(Urchs.等人,2021)
该数据集可以用于多类文本分类任务,具体而言,用于论证挖掘。
该数据集中的语言是德语,它主要用于德国巴伐利亚地区的法院。
每个句子都保存为一个json对象,存储在train.jsonl、validation.jsonl或test.jsonl三个文件中的一行中。meta.jsonl文件包含每个法院的元数据。文件编号(file_number)存在于所有文件中以进行标识。法院判决书的每个句子根据其功能进行分类。
meta.jsonl文件包含每一行的以下字段:
train.jsonl、validation.jsonl和test.jsonl文件包含以下字段:
原始版本未提供拆分。
由Joel Niklaus创建的拆分。我们将数据集随机拆分为80%(160个决定,19271个句子)的训练集,10%的验证集(20个决定,2726个句子)和10%的测试集(20个决定,3078个句子)。我们确保每个决定只出现在一个拆分中,不会分散在多个拆分中。
标签分布
label | train | validation | test |
---|---|---|---|
conclusion | 975 | 115 | 112 |
definition | 4105 | 614 | 609 |
subsumption | 10034 | 1486 | 1802 |
other | 4157 | 511 | 555 |
total | 19271 | 2726 | 3078 |
创建一个由法律专家标注的公开可用的德语法律文本语料库,其中包含已被匿名的判决书,该语料库的注释组成部分包括德国法律写作风格“Urteilsstil”的结论、定义和总结。
“判决书语料库是从网站 www.gesetze-bayern.de 上发布的判决书的集合。在抓取时,该网站提供了31,748个来自131个巴伐利亚法院的判决书,可以追溯到2015年。这些判决书是在法院同意出版后由巴伐利亚州提供的。所有判决书都由巴伐利亚州委托的C.H.BECK出版社进行处理。这个处理过程包括判决书的匿名处理、关键词标记和编辑指南的添加。”(Urchs等人,2021)
资源语言的生产者是谁?来自巴伐利亚的德国法院
“如上所述,判决书语料库由200个随机选择的判决书组成,由一位持有律师资格的专家进行注释,该专家持有第一次律师国家考试资格。由于财务、人员和时间的原因,目前的版本仅由一位专家进行了注释。在将来的版本中,将有多位其他专家对语料库进行注释,并计算注释者间的一致性。”(Urchs等人,2021)
注释者是谁?一位持有第一次律师国家考试资格的法律专家。
“所有判决书都由巴伐利亚州委托的C.H.BECK出版社进行处理。该处理过程包括匿名处理、关键词标记和编辑指南的添加。”(Urchs等人,2021)
[需要更多信息]
[需要更多信息]
使用了SoMaJo句子分割器。在对数据集进行手动检查时,我们发现句子分割器在某些情况下的准确性较差(参见convert_to_hf_dataset.py中的analyze_dataset())。在创建拆分时,我们考虑合并小句子与其相邻句子或将它们全部删除。但是,由于我们找不到直接的方法来做到这一点,我们决定保持数据集内容不变。
请注意,此数据集卡中给出的信息是根据Joel Niklaus和Veton Matoshi提供的数据集版本而提供的。本数据集旨在成为一个更大的基准数据集的一部分。创建由不同来源的几个其他数据集组成的基准数据集需要进行后处理。因此,本数据集的结构,包括文件夹结构,可能与原始数据集大不相同。此外,可以预期与给定论文中提供的数据集统计信息存在差异。建议读者查看convert_to_hf_dataset.py的转换脚本,以追溯将原始数据集转换为现有JsonL格式的步骤。有关原始数据集结构的更多信息,请参阅文献引用和本数据集卡中提供的原始GitHub存储库和/或网页。
原始数据集策划者和创建者的姓名可以在下面的参考文献中找到,其中包含引文信息部分。Joel Niklaus(电子邮件; Github )和Veton Matoshi(电子邮件; Github )对数据集进行了其他更改。
Creative Commons Attribution 4.0 International
@dataset{urchs_stefanie_2020_3936490, author = {Urchs, Stefanie and Mitrović, Jelena}, title = {{German legal jugements annotated with judement style components}}, month = jul, year = 2020, publisher = {Zenodo}, doi = {10.5281/zenodo.3936490}, url = {https://doi.org/10.5281/zenodo.3936490} }
@conference{icaart21, author = {Urchs., Stefanie and Mitrovi{\'{c}}., Jelena and Granitzer., Michael}, booktitle = {Proceedings of the 13th International Conference on Agents and Artificial Intelligence - Volume 2: ICAART,}, doi = {10.5220/0010187305150521}, isbn = {978-989-758-484-8}, issn = {2184-433X}, organization = {INSTICC}, pages = {515--521}, publisher = {SciTePress}, title = {{Design and Implementation of German Legal Decision Corpora}}, year = {2021} }
感谢 @kapllan 和 @joelniklaus 添加了这个数据集。