数据集:

Paul/hatecheck-dutch

批注创建人:

crowdsourced

源数据集:

original

预印本库:

arxiv:2206.09917

许可:

cc-by-4.0

子任务:

hate-speech-detection

语言:

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

expert-generated

任务:

文本分类

数据集介绍文件清单

英文

Multilingual HateCheck 数据集卡片

数据集描述

Multilingual HateCheck (MHC) 是一个包含10种不同语言的仇恨言论检测模型的功能性测试套件。这些语言包括阿拉伯语、荷兰语、法语、德语、印地语、意大利语、普通话、波兰语、葡萄牙语和西班牙语。对于每种语言，都有25个以上的功能性测试，对应不同类型的仇恨言论和具有挑战性的非仇恨言论，从而可以有针对性地了解模型的性能表现。

有关MHC的更多详细信息，请参阅我们在2022年度北美计算语言学协会（NAACL）举办的“在线滥用和伤害（WOAH）”研讨会上发表的MHC论文。如果您使用了MHC，请引用我们的工作！

论文：Röttger等人（2022年） - Multilingual HateCheck：用于多语言仇恨言论检测模型的功能性测试。 https://arxiv.org/abs/2206.09917
仓库： https://github.com/rewire-online/multilingual-hatecheck
联系人：paul@rewire.online

数据集结构

csv格式的数据大部分与原始的HateCheck数据相匹配，但针对特定语言进行了一些调整。

mhc_case_id：每个测试案例在不同语言中唯一的测试案例ID（例如"mandarin-1305"）

functionality：测试案例测试功能的简称（例如"target_obj_nh"）。除了中文和阿拉伯文，其余语言都测试相同的功能，需要根据拼写变体调整测试。

test_case：测试案例的文本。

label_gold：该测试案例的黄金标准标签（"hateful"或"non-hateful"）。同一功能下的所有测试案例具有相同的黄金标准标签。

target_ident：如适用，被针对或提及的受保护群体。所有的HateChecks都涵盖了七个目标群体，但是不同语言的目标群体构成有所不同。

ref_case_id：对于恶毒案例，如适用，这是生成该测试案例的恶毒案例的ID。对于非恶毒案例，如适用，这是与该测试案例形成对比的恶毒案例的ID。

ref_templ_id：相当于ref_case_id，但用于模板ID。

templ_id：生成该测试案例的模板的ID。

case_templ：生成该测试案例的模板（适用的情况下）。

gender_male和gender_female：对于性别有影响的语言（法语、西班牙语、葡萄牙语、印地语、阿拉伯语、意大利语、波兰语、德语），当性别变化有影响时，分别以gender_male和gender_female的形式替代case_templ。

label_annotated：三个评注员对该测试案例给出的标签列表（例如"['hateful', 'hateful', 'hateful']"）。

label_annotated_maj：三个评注员的多数投票结果（例如"hateful"）。在某些情况下，这可能与我们的语言专家给出的黄金标签不同。

disagreement_in_case：如果label_annotated_maj与label_gold不匹配，则为True。

disagreement_in_template：如果该测试案例是从“IDENT”模板生成的，并且存在至少一个具有disagreement_in_case的案例从同一模板生成。这可以用来排除整个模板在MHC中的使用。

作者:

Paul

数据集大小:

836.65 KB