数据集:
dennlinger/eur-lex-sum
EUR-Lex-Sum数据集是一个面向法律领域文本摘要的多语言资源。它基于欧洲联盟发布的法律法规的人工撰写摘要。与其他类似数据集相比,它通过提供一小组高质量的人工撰写样本,每个样本都有比较长的参考文本(以及摘要!),在质量上有了较大的提升。此外,底层的法律法规为法律文本提供了一个具有挑战性的领域特定应用,而目前非英语语言的法律文本在这方面还没有得到充分的研究。对于每个法律法规,样本在多达24种语言中可用(这是欧洲联盟正式认可的语言);验证和测试样本完全由所有语言中可用的样本组成,并在段落级别上进行对齐。
该数据集支持所有 official languages of the European Union 个语言。在收集时,有24种语言可用:保加利亚语、克罗地亚语、捷克语、丹麦语、荷兰语、英语、爱沙尼亚语、芬兰语、法语、德语、希腊语、匈牙利语、爱尔兰语、意大利语、拉脱维亚语、立陶宛语、马耳他语、波兰语、葡萄牙语、罗马尼亚语、斯洛伐克语、斯洛文尼亚语、西班牙语和瑞典语。
参考文本和摘要都是从英文原文翻译而来的(这是通过与欧洲联盟出版社的私人信函确认的)。翻译和摘要是由欧盟雇佣的外部(专业)机构编写的。
根据每种语言文档摘要的可用性,我们提供的样本数量在391(爱尔兰语)到1505(法语)之间。超过80%的样本有至少20种语言的翻译。
数据实例包含相当少的信息。除了唯一的标识符(对应于欧盟生成的Celex ID)之外,另外两个字段指定了原始法律法规的长格式和相应的摘要。
{ "celex_id": "3A32021R0847", "reference": "REGULATION (EU) 2021/847 OF THE EUROPEAN PARLIAMENT AND OF THE COUNCIL\n [...]" "summary": "Supporting EU cooperation in the field of taxation: Fiscalis (2021-2027)\n\n [...]" }
我们提供预先划分的训练、验证和测试拆分。为了获得验证集和测试集,我们随机将所有24种语言中可用的样本分成两个数量相等的部分。总共有375个样本可用于24种语言,这意味着我们获得了一个187个样本的验证集和一个188个样本的测试集。所有剩余的样本都分配给特定语言的训练集部分,它们的大小各不相同。
我们特别确保三个拆分中不存在重复内容。为此,我们确保没有完全匹配的参考或摘要文本存在于任何样本中。有关长度分布的其他信息(对于英文子集)可以在论文中找到。
该数据集的策划旨在提供探索自动文本摘要研究中尚未探索的方面的资源。我们特别希望鼓励不受通常的512个标记上下文窗口限制的抽象性摘要系统的研究,这通常对于(简短的)新闻文章效果很好,但无法生成长篇摘要,或者一开始就无法处理更长的源文本。此外,现有资源主要集中在一种(非常专业的)领域,即新闻文章摘要。我们希望为法律摘要提供另一个资源,因为许多语言甚至没有现有数据集可用于此目的。我们进一步注意到之前没有任何系统使用来自 EUR-Lex platform 的人工撰写样本,这些样本为适合用于摘要研究的训练实例提供了一个极好的资源。我们后来发现了一个类似的基于EUR-Lex文件创建的资源,它以相似的方式进行构建。但是,我们提供更彻底的过滤,并将此过程扩展到其他23种欧盟语言。
数据是从上述EUR-Lex平台中爬取而来的。特别是,我们仅使用具有HTML文本版本的样本,这样可以确保跨语言的对齐,因为译文必须保留原始段落结构,而这一结构是由HTML元素编码的。我们还过滤掉没有相关文档摘要的样本。
必须对某些摘要进行进一步扩展的特定设计选择:EU将多个源文档视为输入的一部分以产生一份摘要。然而,由于我们构建的是单文档摘要语料库,我们决定仅使用最长的参考文档。这意味着我们明确地从语料库中删除了其他参考文本。另一种选择是将所有相关源文本连接在一起;然而,这通常会导致文本中的位置偏差减小,而位置偏差可能是摘要系统的重要学习特征。我们的论文详细说明了这个决策对于N-gram新颖性的影响,我们发现这个处理选择受到了影响。
谁是源语言生产者?语言制作人是由欧盟办事处聘请的外部专业人员。如前所述,所有非英语文本都源自相应的英文文档(所有摘要都是从英文摘要直接翻译的,所有参考文本都是从英文参考文本翻译的)。对于注释人员的人口统计学信息没有进一步的信息。
欧盟为摘要发布了其 annotation guidelines ,摘要的长度在600-800个单词之间。没有了解到关于翻译指南的信息。
谁是注释者?语言制作人是由欧盟办事处聘请的外部专业人员。没有更多的关于注释者的信息。
原始文本没有被作者以任何方式修改, 数据集中可能包含个人姓名的明确提及,但我们依赖于欧盟,没有提供这些文件中提供了进一步的敏感信息。
该数据集可用于为之前代表稀缺语言的摘要系统提供支持。例如,爱尔兰语和马耳他语等语言的样本可用于开发和评估针对这些语言的系统。成功的跨语言系统还将有助于自动翻译类似的特定国家的法律法规,从而使来到欧洲国家的外国人能够自动翻译成相似的国家特定的法律法规。
鉴于训练数据的有限数量,该数据集也适用于低资源方法的测试基准,特别是与强大的无监督(提取式)摘要系统相比。我们还注意到,欧盟明确提供的摘要并不具有法律约束力。摘要省略了细节(摘要的必要性),这意味着(法律具有约束力的)原始法律法规之间存在差异。
与该数据集相关的风险主要源于对其进行训练的系统的潜在应用。法律领域的决策需要对完整上下文进行仔细分析,并且目前不应该基于系统生成的摘要进行决策。摘要中已知的偏见,特别是事实性错误,应作为进一步的遏制因素。
由于可用性偏见,数据集中的某些语言更具代表性。我们通过为所有语言提供相同大小的验证和测试集来减轻对评估的影响。由于我们需要HTML文件的可用性,我们的数据集中存在特定的时间偏见,这是由于欧盟相关活动的增加以及互联网作为数据存储的本地使用。这可能意味着对更近期的主题(例如退欧、可再生能源等)特别关注。
最后,由于这些文件的来源是欧盟,我们预计这些数据会对欧盟为中心(因此是以西方为中心)的内容存在自然偏见;其他国家和大陆的内容在数据中的代表性会较低。
我们之前已经提到,我们知道某些摘要涉及多个(不同的)法律法规。对于这些样本,我们的数据集中只有一个(最长的)文本可用。
Web爬虫最初是由Ashish Chouhan实现的。后来由Dennis Aumiller执行了后处理和样本纠正工作。他们都是海德堡大学数据库系统研究组的博士生,受Michael Gertz博士的指导。
从EUR-Lex平台获得的数据在CC-BY SA 4.0许可下可用。我们在同一许可下重新分发数据集。
如需引用预印本版本,请引用:
@article{aumiller-etal-2022-eur, author = {Aumiller, Dennis and Chouhan, Ashish and Gertz, Michael}, title = {{EUR-Lex-Sum: A Multi- and Cross-lingual Dataset for Long-form Summarization in the Legal Domain}}, journal = {CoRR}, volume = {abs/2210.13448}, eprinttype = {arXiv}, eprint = {2210.13448}, url = {https://arxiv.org/abs/2210.13448} }