该数据集提供了来自8个欧洲国家(比利时,法国,匈牙利,意大利,荷兰,挪威,波兰,英国)的立法文件语料库,包括7种语言(荷兰语,英语,法语,匈牙利语,意大利语,挪威布克莫尔语,波兰语),这些文件已经人工标注为针对COVID-19的特殊措施。标注是在句子级别上完成的。
该数据集可用于多标签文本分类任务。
荷兰语,英语,法语,匈牙利语,意大利语,挪威布克莫尔语,波兰语
文件格式为jsonl,包含三个数据集拆分(训练集、验证集和测试集)。
jsonl文件具有以下基本列:
这些文档已经使用8个标签进行了注释,每个标签代表针对COVID-19的特定措施。每个标签在jsonl文件中由一个布尔字段表示。这些标签,即特定的措施分类,包括:
所有标注的句子组合包含以下拆分:
拆分是根据每个国家进行的,并且后来被合并。因此,每个拆分包含来自每个国家的句子。
下面的标签分布显示了每个拆分中每个标签的出现次数。总出现次数汇总了前面行的情况(每个拆分的总事件数)。拆分大小是每个拆分中的句子数量。
Event | train | validation | test |
---|---|---|---|
event1 | 383 | 54 | 47 |
event2 | 253 | 39 | 42 |
event3 | 412 | 70 | 62 |
event4 | 617 | 75 | 93 |
event5 | 52 | 4 | 6 |
event6 | 15 | 2 | 1 |
event7 | 45 | 4 | 5 |
event8 | 146 | 21 | 19 |
total occurrences | 1923 | 269 | 275 |
split size | 3312 | 418 | 418 |
"调查多语言预训练语言模型在分析、探索和比较针对COVID-19特殊措施的法律文本方面的潜力"(Tziafas et al.,2021)
“语料库收集过程由四位政治科学专家与国家法律专家合作监督。所有文件均来源于发布法律文件的官方政府网站。有关文件的识别是通过4个关键词(即“COVID”,“COVID-19”,“冠状病毒”和“卫生紧急情况”)进行的。对于每种语言,使用了相应的语言特定关键词。在这个初始阶段,我们关注19个欧洲经济区国家的样本,这些国家在国家层面采取了措施。为此,我们确定了相关文件的公开可用链接2以及英国和瑞士。我们在欧洲经济区的两个国家(保加利亚和希腊)中找不到相应的文件。所有文件都是通过手动下载或自动抓取来收集的。对于有多种官方语言的国家(例如,瑞士),所有可用语言的法律文件都被收集了。”(Tziafas et al.,2021)
谁是源语言制作者?政治家和法律专家参与了语言材料的制作。
“在八种语言中选择了281个文档的子集进行手动注释。特殊措施的注释应用于句子级别。样本基于法语、波兰语、荷兰语、英语、匈牙利语、比利时语、意大利语和挪威语子语料库。注释者可以根据他们认为与每个句子相关的任意数量的子类进行分配,但总共有八个主要的特殊措施类别。句子可能包含多个特殊类别,这使得它成为一个多标签注释任务。注释过程导致每个句子的八个二进制注释,如果句子中没有识别出特定类别,则为0,如果有识别出,则为1。注释是由项目科学委员会监督下的三位政治科学专家进行的。由于注释者不会所有语言,并且由于无法招募到熟练的母语人士,因此一些文件需要翻译成英语才能进行手动注释。在这个阶段,未提出新的类。
标注者是谁?“注释是由三位政治科学专家在项目科学委员会的监督下进行的。”(Tziafas et al.,2021)
[需要更多信息]
[需要更多信息]
[需要更多信息]
请注意,此数据集卡片中给出的信息是指由Joel Niklaus和Veton Matoshi提供的数据集版本。这个数据集是一个更大的基准数据集的一部分。创建一个由来自不同来源的多个其他数据集组成的基准数据集需要进行后处理。因此,数据集的结构,包括文件夹结构,可能与原始数据集有很大的不同。此外,预计与在相应论文中给出的数据集统计信息存在差异。建议读者查看convert_to_hf_dataset.py转换脚本,以了解将原始数据集转换为当前jsonl格式的步骤。有关原始数据集结构的更多信息,请参阅引文参考和提供此数据集卡片中的原始GitHub存储库和/或网页。
原始数据集策划者和创建者的姓名可以在下方的参考文献中找到,范围在引文信息部分。Joel Niklaus( Github )和Veton Matoshi( Github )进行了额外的更改。
Creative Commons Zero v1.0通用
@inproceedings{tziafas-etal-2021-multilingual, title = "A Multilingual Approach to Identify and Classify Exceptional Measures against {COVID}-19", author = "Tziafas, Georgios and de Saint-Phalle, Eugenie and de Vries, Wietse and Egger, Clara and Caselli, Tommaso", booktitle = "Proceedings of the Natural Legal Language Processing Workshop 2021", month = nov, year = "2021", address = "Punta Cana, Dominican Republic", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2021.nllp-1.5", pages = "46--62", }
感谢 @JoelNiklaus 和 @kapllan 添加了此数据集。