数据集:

Paul/hatecheck-italian

语言:

it

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

expert-generated

批注创建人:

crowdsourced

源数据集:

original

预印本库:

arxiv:2206.09917

许可:

cc-by-4.0
英文

Multilingual HateCheck 数据集卡片

数据集描述

Multilingual HateCheck (MHC) 是一个包含10种不同语言(阿拉伯语、荷兰语、法语、德语、印地语、意大利语、普通话、波兰语、葡萄牙语和西班牙语)的仇恨言论检测模型的功能测试套件。对于每种语言,都有25个以上的功能测试,对应不同类型的仇恨和非仇恨性挑战。这样可以有针对性地了解模型的性能。

有关MHC的更多详细信息,请参阅我们在2022 Workshop on Online Abuse and Harms (WOAH) @ NAACL 2022上发表的论文。如果您使用了MHC,请引用我们的工作!

数据集结构

CSV格式与原始的HateCheck数据大致相同,但对于特定语言进行了一些调整。

mhc_case_id:每个测试案例都有唯一的测试案例ID(例如“mandarin-1305”)

功能:测试案例测试的功能的简写(例如“target_obj_nh”)。除了需要针对中文和阿拉伯文进行调整以适应不同的拼写变体外,所有语言都进行相同功能的测试。

测试案例文本

标签_黄金:测试案例的黄金标准标签(“仇恨”或“非仇恨”)。给定功能中的所有测试案例具有相同的黄金标准标签。

目标识别:适用的话,被测试案例所针对或提及的受保护群体。所有HateCheck涵盖七个目标群体,但其组成在不同语言中有所不同。

ref_case_id:仇恨案例,适用的话,生成此测试案例的被扰动案例的ID。非仇恨案例适用的话,则是与该测试案例进行对比的仇恨案例的ID。

ref_templ_id:相当于ref_case_id,但对应的是模板ID。

templ_id:生成该测试案例的模板ID。

case_templ:生成该测试案例的模板(适用的话)。

gender_male和gender_female:针对有性别词尾的语言(法语、西班牙语、葡萄牙语、印地语、阿拉伯语、意大利语、波兰语、德语),仅适用于涉及性别词尾的案例,分别为gender_male和gender_female提供单独的条目以取代case_templ。

label_annotated:由三名审查测试案例的注释者给出的标签列表(例如“['仇恨','仇恨','仇恨']”)。

label_annotated_maj:三名注释者的多数投票结果(例如“仇恨”)。在某些情况下,与我们的语言专家给出的黄金标签不同。

在案例中存在分歧时为True,如果label_annotated_maj与label_gold不匹配。

在模板中存在分歧时为True,如果生成了至少一个具有分歧标签的来自相同模板的案例,则可以使用该标志将整个模板排除在MHC之外。