数据集:

Paul/hatecheck-italian

任务:

文本分类

子任务:

hate-speech-detection

语言:

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

expert-generated

批注创建人:

crowdsourced

源数据集:

original

预印本库:

arxiv:2206.09917

许可:

cc-by-4.0

数据集介绍文件清单

英文

Multilingual HateCheck 数据集卡片

数据集描述

Multilingual HateCheck (MHC) 是一个包含10种不同语言（阿拉伯语、荷兰语、法语、德语、印地语、意大利语、普通话、波兰语、葡萄牙语和西班牙语）的仇恨言论检测模型的功能测试套件。对于每种语言，都有25个以上的功能测试，对应不同类型的仇恨和非仇恨性挑战。这样可以有针对性地了解模型的性能。

有关MHC的更多详细信息，请参阅我们在2022 Workshop on Online Abuse and Harms (WOAH) @ NAACL 2022上发表的论文。如果您使用了MHC，请引用我们的工作！

论文：Röttger等人（2022）-Multilingual HateCheck：多语种仇恨言论检测模型的功能测试。
存储库： https://github.com/rewire-online/multilingual-hatecheck
联系人：paul@rewire.online

数据集结构

CSV格式与原始的HateCheck数据大致相同，但对于特定语言进行了一些调整。

mhc_case_id：每个测试案例都有唯一的测试案例ID（例如“mandarin-1305”）

功能：测试案例测试的功能的简写（例如“target_obj_nh”）。除了需要针对中文和阿拉伯文进行调整以适应不同的拼写变体外，所有语言都进行相同功能的测试。

测试案例文本

标签_黄金：测试案例的黄金标准标签（“仇恨”或“非仇恨”）。给定功能中的所有测试案例具有相同的黄金标准标签。

目标识别：适用的话，被测试案例所针对或提及的受保护群体。所有HateCheck涵盖七个目标群体，但其组成在不同语言中有所不同。

ref_case_id：仇恨案例，适用的话，生成此测试案例的被扰动案例的ID。非仇恨案例适用的话，则是与该测试案例进行对比的仇恨案例的ID。

ref_templ_id：相当于ref_case_id，但对应的是模板ID。

templ_id：生成该测试案例的模板ID。

case_templ：生成该测试案例的模板（适用的话）。

gender_male和gender_female：针对有性别词尾的语言（法语、西班牙语、葡萄牙语、印地语、阿拉伯语、意大利语、波兰语、德语），仅适用于涉及性别词尾的案例，分别为gender_male和gender_female提供单独的条目以取代case_templ。

label_annotated：由三名审查测试案例的注释者给出的标签列表（例如“['仇恨'，'仇恨'，'仇恨']”）。

label_annotated_maj：三名注释者的多数投票结果（例如“仇恨”）。在某些情况下，与我们的语言专家给出的黄金标签不同。

在案例中存在分歧时为True，如果label_annotated_maj与label_gold不匹配。

在模板中存在分歧时为True，如果生成了至少一个具有分歧标签的来自相同模板的案例，则可以使用该标志将整个模板排除在MHC之外。

作者:

Paul

数据集大小:

1.02 MB