数据集:

Paul/hatecheck-german

语言:

de

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

expert-generated

批注创建人:

crowdsourced

源数据集:

original

预印本库:

arxiv:2206.09917

许可:

cc-by-4.0
英文

多语言HateCheck数据集卡片

数据集描述

多语言HateCheck(MHC)是一套针对10种不同语言的仇恨言论检测模型的功能测试套件,包括阿拉伯语、荷兰语、法语、德语、印地语、意大利语、普通话、波兰语、葡萄牙语和西班牙语。每种语言都有25多个功能测试,对应于不同类型的仇恨和具有挑战性的非仇恨。这使得可以有针对性地了解模型的性能。

详细信息请参考我们在2022年NAACL的在线虐待和伤害(WOAH)研讨会上发表的有关MHC的论文。如果您正在使用MHC,请引用我们的工作!

数据集结构

csv格式大部分与原始的HateCheck数据相匹配,但针对特定语言进行了一些调整。

mhc_case_id 测试用例的唯一标识符,适用于每个语言的每个测试用例(例如,“mandarin-1305”)

functionality 测试用例所测试功能的简写(例如,“target_obj_nh”),所有语言都测试相同的功能,但对于中文和阿拉伯语,由于非拉丁文字需要根据拼写变体进行调整。

test_case 测试用例文本。

label_gold 测试用例的黄金标签(“仇恨”或“非仇恨”)。给定功能中的所有测试用例具有相同的黄金标签。

target_ident 如果适用,指定在测试用例中被针对或提及的受保护群体。所有HateCheck涵盖七个受攻击群体,但它们的组成在不同语言中有所不同。

ref_case_id 对于具有仇恨情绪的情况,如果适用,将生成此测试用例的被扰动的仇恨用例的ID。对于非仇恨的情况,如果适用,将与此测试用例进行对比的仇恨用例的ID。

ref_templ_id 与ref_case_id相当,但用于模板ID。

templ_id 生成测试用例的模板的ID。

case_templ 生成测试用例的模板(如果适用)。

gender_male 和 gender_female 对于有性别变化的语言(法语、西班牙语、葡萄牙语、印地语、阿拉伯语、意大利语、波兰语、德语),仅在性别变化相关的情况下,性别男性和性别女性的分别条目替换了case_templ。

label_annotated 三位评审员对测试用例给出的标签列表(例如,“['仇恨','仇恨','仇恨']”)。

label_annotated_maj 三位评审员的多数票(例如,“仇恨”)。在某些情况下,这与我们的语言专家给出的黄金标签不同。

disagreement_in_case 如果label_annotated_maj与label_gold不匹配,则为true。

disagreement_in_template 如果测试用例是从IDENT模板生成的,并且至少有一个具有disagreement_in_case的测试用例从相同的模板生成。这可以用于在MHC中排除整个模板。