数据集:

joelito/covid19_emergency_event

计算机处理:

multilingual

大小:

1K<n<10K

语言创建人:

found

批注创建人:

found other

源数据集:

original

许可:

cc0-1.0
英文

EXCEPTIUS语料库数据集卡片

数据集概述

该数据集提供了来自8个欧洲国家(比利时,法国,匈牙利,意大利,荷兰,挪威,波兰,英国)的立法文件语料库,包括7种语言(荷兰语,英语,法语,匈牙利语,意大利语,挪威布克莫尔语,波兰语),这些文件已经人工标注为针对COVID-19的特殊措施。标注是在句子级别上完成的。

支持的任务和排行榜

该数据集可用于多标签文本分类任务。

语言

荷兰语,英语,法语,匈牙利语,意大利语,挪威布克莫尔语,波兰语

数据集结构

数据实例

文件格式为jsonl,包含三个数据集拆分(训练集、验证集和测试集)。

数据字段

jsonl文件具有以下基本列:

  • 语言:句子的语言(基于国家设置)
  • 国家:句子的国家
  • 文本:已经进行了注释的句子

这些文档已经使用8个标签进行了注释,每个标签代表针对COVID-19的特定措施。每个标签在jsonl文件中由一个布尔字段表示。这些标签,即特定的措施分类,包括:

  • 事件1:紧急状态
  • 事件2:限制基本权利和公民自由
  • 事件3:限制日常自由
  • 事件4:封锁/封禁
  • 事件5:暂停国际合作和承诺
  • 事件6:警察动员
  • 事件7:军队动员
  • 事件8:政府监督
  • 所有事件:合并了所有适用的事件的聚合列

数据集拆分

所有标注的句子组合包含以下拆分:

  • 训练集:3312(80%)
  • 验证集:418(10%)
  • 测试集:418(10%)

拆分是根据每个国家进行的,并且后来被合并。因此,每个拆分包含来自每个国家的句子。

下面的标签分布显示了每个拆分中每个标签的出现次数。总出现次数汇总了前面行的情况(每个拆分的总事件数)。拆分大小是每个拆分中的句子数量。

Event train validation test
event1 383 54 47
event2 253 39 42
event3 412 70 62
event4 617 75 93
event5 52 4 6
event6 15 2 1
event7 45 4 5
event8 146 21 19
total occurrences 1923 269 275
split size 3312 418 418

数据集创建

策划理由

"调查多语言预训练语言模型在分析、探索和比较针对COVID-19特殊措施的法律文本方面的潜力"(Tziafas et al.,2021)

来源数据

初始数据收集和归一化

“语料库收集过程由四位政治科学专家与国家法律专家合作监督。所有文件均来源于发布法律文件的官方政府网站。有关文件的识别是通过4个关键词(即“COVID”,“COVID-19”,“冠状病毒”和“卫生紧急情况”)进行的。对于每种语言,使用了相应的语言特定关键词。在这个初始阶段,我们关注19个欧洲经济区国家的样本,这些国家在国家层面采取了措施。为此,我们确定了相关文件的公开可用链接2以及英国和瑞士。我们在欧洲经济区的两个国家(保加利亚和希腊)中找不到相应的文件。所有文件都是通过手动下载或自动抓取来收集的。对于有多种官方语言的国家(例如,瑞士),所有可用语言的法律文件都被收集了。”(Tziafas et al.,2021)

谁是源语言制作者?

政治家和法律专家参与了语言材料的制作。

标注

标注过程

“在八种语言中选择了281个文档的子集进行手动注释。特殊措施的注释应用于句子级别。样本基于法语、波兰语、荷兰语、英语、匈牙利语、比利时语、意大利语和挪威语子语料库。注释者可以根据他们认为与每个句子相关的任意数量的子类进行分配,但总共有八个主要的特殊措施类别。句子可能包含多个特殊类别,这使得它成为一个多标签注释任务。注释过程导致每个句子的八个二进制注释,如果句子中没有识别出特定类别,则为0,如果有识别出,则为1。注释是由项目科学委员会监督下的三位政治科学专家进行的。由于注释者不会所有语言,并且由于无法招募到熟练的母语人士,因此一些文件需要翻译成英语才能进行手动注释。在这个阶段,未提出新的类。

标注者是谁?

“注释是由三位政治科学专家在项目科学委员会的监督下进行的。”(Tziafas et al.,2021)

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

请注意,此数据集卡片中给出的信息是指由Joel Niklaus和Veton Matoshi提供的数据集版本。这个数据集是一个更大的基准数据集的一部分。创建一个由来自不同来源的多个其他数据集组成的基准数据集需要进行后处理。因此,数据集的结构,包括文件夹结构,可能与原始数据集有很大的不同。此外,预计与在相应论文中给出的数据集统计信息存在差异。建议读者查看convert_to_hf_dataset.py转换脚本,以了解将原始数据集转换为当前jsonl格式的步骤。有关原始数据集结构的更多信息,请参阅引文参考和提供此数据集卡片中的原始GitHub存储库和/或网页。

其他信息

数据集策划者

原始数据集策划者和创建者的姓名可以在下方的参考文献中找到,范围在引文信息部分。Joel Niklaus( Github )和Veton Matoshi( Github )进行了额外的更改。

许可信息

Creative Commons Zero v1.0通用

引文信息

@inproceedings{tziafas-etal-2021-multilingual,
    title = "A Multilingual Approach to Identify and Classify Exceptional Measures against {COVID}-19",
    author = "Tziafas, Georgios  and
      de Saint-Phalle, Eugenie  and
      de Vries, Wietse  and
      Egger, Clara  and
      Caselli, Tommaso",
    booktitle = "Proceedings of the Natural Legal Language Processing Workshop 2021",
    month = nov,
    year = "2021",
    address = "Punta Cana, Dominican Republic",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.nllp-1.5",
    pages = "46--62",
}

贡献

感谢 @JoelNiklaus @kapllan 添加了此数据集。