数据集:

eu_regulatory_ir

语言:

en

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

found

批注创建人:

found

源数据集:

original

预印本库:

arxiv:2101.10726
英文

RegIR数据集的数据卡

数据集摘要

欧盟(EU)有一个类似于组织的法规合规的立法框架。根据《欧洲联盟运作条约》(TFEU),所有发布的欧盟指令必须在国家层面生效。因此,所有欧盟成员国必须在指令规定的期限内(通常为2年)采纳一项法律来转换新发布的指令。

在这里,我们有两个数据集,EU2UK和UK2EU,包含EU指令和英国法规,可以作为查询和文档,按照基本事实假设,英国法律与转化的EU指令相关,反之亦然。

支持的任务和排行榜

数据集支持:

EU2UK(eu2uk):给定一个EU指令Q,从所有可用的英国法规池中检索相关文档集。相关文档是转换EU指令(Q)的文档。

UK2EU(uk2eu):给定一个英国法规Q,从所有可用的EU指令池中检索相关文档集。相关文档是被英国法规(Q)转换的文档。

语言

所有文档都是用英语编写的。

数据集结构

数据实例

{
  "document_id": "31977L0794",
  "publication_year": "1977",
  "text": "Commission Directive 77/794/EEC ... of agricultural levies and customs duties",
  "relevant_documents": ["UKPGA19800048", "UKPGA19770036"]
}

数据字段

为查询文档(train,dev,test)提供以下数据字段:

document_id:(str)文档的ID。发布年份:(str)文档的发布年份。text:(str)文档的文本。relevant_documents:(List [str])相关文档的列表,表示为其document_id。

为语料库文档(文集)提供以下数据字段:

document_id:(str)文档的ID。发布年份:(str)文档的发布年份。text:(str)文档的文本。

数据拆分

EU2UK数据集
Split No of Queries Avg. relevant documents
Train 1,400 1.79
Development 300 2.09
Test 300 1.74
Document Pool (Corpus): 52,515 UK regulations
UK2EU数据集
Split No of Queries Avg. relevant documents
Train 1,500 1.90
Development 300 1.46
Test 300 1.29
Document Pool (Corpus): 3,930 EU directives

数据集创建

配置理由

该数据集由Chalkidis等人(2021)创建。转化对可以在欧盟出版物办公室( https://publications.europa.eu/en )的公开途径上访问。

源数据

初始数据收集和标准化

原始数据以未处理的格式在EUR-Lex门户( https://eur-lex.europa.eu )和Legislation.GOV.UK( http://legislation.gov.uk/ )上可用。转化对由欧盟成员国(在我们的案例中是英国)提供,并从欧盟出版物办公室的SPARQL端点( http://publications.europa.eu/webapi/rdf/sparql).\ 获取了此数据对 。有关数据集策划的更多信息,请阅读Chalkidis等人(2021)的内容。

谁是源语言的生产者?

【需要更多信息】

注释

注释过程 谁是注释者?

欧盟出版物办公室( https://publications.europa.eu/en

个人和敏感信息

该数据集不包含个人或敏感信息。

使用数据的注意事项

数据的社会影响

【需要更多信息】

偏见讨论

【需要更多信息】

其他已知限制

【需要更多信息】

附加信息

数据集策划者

Chalkidis等人(2021)

许可信息

欧盟数据

©欧洲联盟,1998-2021

委员会的文件再利用政策基于2011/833/EU决定。除非另有规定,您可以将在EUR-Lex中发布的法律文件重新用于商业或非商业目的。

该网站的编辑内容、欧盟法规摘要和归纳文本的版权归欧盟所有,根据创作共用署名4.0国际许可证进行许可。这意味着您可以重新使用内容,前提是您承认来源并指出您所做的任何更改。

来源: https://eur-lex.europa.eu/content/legal-notice/legal-notice.html 阅读更多: https://eur-lex.europa.eu/content/help/faq/reuse-contents-eurlex.html

英国数据

鼓励您根据这个许可证自由灵活地使用和重新使用信息,只需满足少量条件即可。

您可以自由地:

  • 复制、发布、分发和传输信息;
  • 改编信息;
  • 在商业和非商业环境中利用信息,例如将其与其他信息结合使用,或者将其包含在您自己的产品或应用程序中。

您必须(在您做了上述任何事情时):

在您的产品或应用中通过包含或链接到信息提供者指定的任何归属声明来确认信息的来源,并在可能的情况下提供与本许可证的链接: http://www.nationalarchives.gov.uk/doc/open-government-licence/version/3/

引文信息

Ilias Chalkidis,Manos Fergadiotis,Nikos Manginas,Eva Katakalou和Prodromos Malakasiotis。通过Doc2Doc信息检索实现法规合规性:在文本相似性存在局限的欧盟/英国立法中的案例研究。欧洲计算语言学协会第16届会议论文集(EACL 2021)。在线。2021

@inproceedings{chalkidis-etal-2021-regir,
    title = "Regulatory Compliance through Doc2Doc Information Retrieval: A case study in EU/UK legislation where text similarity has limitations",
    author = "Chalkidis, Ilias  and Fergadiotis, Manos and Manginas, Nikos and Katakalou, Eva,  and Malakasiotis, Prodromos",
    booktitle = "Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics (EACL 2021)",
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/2101.10726",
}

贡献

感谢 @iliaschalkidis 增加了此数据集。