数据集:

jeanlee/kmhas_korean_hate_speech

英文

K-MHaS 数据集卡片

示例代码

数据集摘要

韩语多标签仇恨言论数据集 K-MHaS 包含了109,692个来自韩国在线新闻评论的话语,标记有8个细粒度的仇恨言论分类(标签:政治、出身、外貌、年龄、性别、宗教、种族、粗言秽语)或非仇恨言论类别。每个话语可以有一个到四个标签,能够有效处理韩语语言模式。更多详细信息,请参考我们在 COLING 2022 发表的论文 K-MHaS

支持的任务和排行榜

仇恨言论检测

  • 二元分类(标签:仇恨言论、非仇恨言论)
  • 多标签分类:(标签:政治、出身、外貌、年龄、性别、宗教、种族、粗言秽语、非仇恨言论)

对于多标签分类,从二元分类的“仇恨言论”类中细分为八个类别,与仇恨言论类别相关。为了反映社会和历史背景,我们选择了这八个仇恨言论类别。例如,选定了政治类别,因为它对韩国仇恨言论的风格有着重要的影响。

语言

韩语

数据集结构

数据实例

数据集以txt格式提供训练/验证/测试集。每个实例是一条新闻评论,附带一个或多个仇恨言论类别(标签:政治、出身、外貌、年龄、性别、宗教、种族、粗言秽语)或非仇恨言论类别。标签编号与英文和韩文对应关系在数据字段部分给出。

{'text':'수꼴틀딱시키들이 다 디져야 나라가 똑바로 될것같다..답이 없는 종자들ㅠ'
 'label': [2, 3, 4]
}

数据字段

  • text:来自韩国在线新闻评论的话语。
  • label:与8个细粒度仇恨言论类别和非仇恨言论类别相对应的标签编号如下:
    • 0 :出身(出身歧视)基于出生地或身份的仇恨言论;
    • 1 :外貌(外貌歧视)基于外貌(例如身体、脸)或残疾的仇恨言论;
    • 2 :政治(政治立场歧视)基于政治立场的仇恨言论;
    • 3 :粗言秽语(厌恶粗言秽语)诅咒、咒骂、恶言、污言秽语或恶意言论形式的仇恨言论;或者未指定的仇恨言论类别;
    • 4 :年龄(年龄歧视)基于年龄的仇恨言论;
    • 5 :性别(性别歧视)基于性别或性取向的仇恨言论(例如女性、同性恋);
    • 6 :种族(种族歧视)基于种族的仇恨言论;
    • 7 :宗教(宗教歧视)基于宗教的仇恨言论;
    • 8 :非仇恨言论(没有仇恨言论)。

数据集划分

我们提供的数据集分为训练集、验证集和测试集,其中训练集有78,977个样本,验证集有8,776个样本,测试集有21,939个样本,保持类别比例一致。

数据集创建

策划理由

我们提出了一个大规模的韩语多标签仇恨言论检测数据集K-MHaS,能够有效地表示韩语语言模式。尽管仇恨言论的主观性不能用相互排斥的注释方案来解释,在仇恨言论研究中的大多数数据集都是使用特定方面的单一标签分类进行注释的。我们提出了一个多标签仇恨言论注释方案,允许与仇恨言论的主观性和交叉性相关的重叠标签。

数据源

初始数据收集和规范化

我们的数据集基于Kaggle和Github上的韩国在线新闻评论。未标记的原始数据收集时间为2018年1月至2020年6月。请参阅我们在 COLING2020 上发表的论文 K-MHaS 中的详细信息。

语言制作者是谁?

语言制作者是在2018年至2020年期间在韩国在线新闻平台上留下评论的用户。

注释

注释过程

我们首先从文献中找到仇恨言论的常见类别,并为每个类别匹配关键词。在初步阶段之后,我们调查结果以合并或删除标签,以提供与文化背景相关的最具代表性的仇恨言论子类型标签。我们的注释说明解释了两层注释,用于(a)区分仇恨言论和非仇恨言论,以及(b)仇恨言论的类别。要求注释者考虑社会、文化和历史环境下每个类别给出的关键词或替代词。更多详细信息,请参考论文 K-MHaS

注释者是谁?

在初步和主要的注释过程中,我们招募了五名母语为韩语的注释者。

个人和敏感信息

该数据集包含了仇恨言论的例子,但没有个人信息。

使用数据时的注意事项

数据的社会影响

我们提出了一个新的韩语仇恨言论检测的大规模数据集K-MHaS,并且使用了多标签注释方案。我们提供了广泛的基线实验结果,展示了数据集在检测韩语仇恨言论中的可用性。

偏见讨论

所有注释者都是从众包平台招募的。他们在处理数据之前就仇恨言论进行了了解。我们的说明允许他们自由选择离开,如果他们对内容感到不舒服。关于潜在风险,我们注意到人类注释的主观性会影响数据集的质量。

其他已知限制

[需要更多信息]

其他信息

数据集策划者

该数据集由Taejun Lim、Heejun Lee和Bogeun Jo策划。

许可信息

创作共用署名-相同方式共享4.0国际许可协议(CC-BY-SA-4.0)。

引用信息

@inproceedings{lee-etal-2022-k,
    title = "K-{MH}a{S}: A Multi-label Hate Speech Detection Dataset in {K}orean Online News Comment",
    author = "Lee, Jean  and
      Lim, Taejun  and
      Lee, Heejun  and
      Jo, Bogeun  and
      Kim, Yangsok  and
      Yoon, Heegeun  and
      Han, Soyeon Caren",
    booktitle = "Proceedings of the 29th International Conference on Computational Linguistics",
    month = oct,
    year = "2022",
    address = "Gyeongju, Republic of Korea",
    publisher = "International Committee on Computational Linguistics",
    url = "https://aclanthology.org/2022.coling-1.311",
    pages = "3530--3538",
    abstract = "Online hate speech detection has become an important issue due to the growth of online content, but resources in languages other than English are extremely limited. We introduce K-MHaS, a new multi-label dataset for hate speech detection that effectively handles Korean language patterns. The dataset consists of 109k utterances from news comments and provides a multi-label classification using 1 to 4 labels, and handles subjectivity and intersectionality. We evaluate strong baselines on K-MHaS. KR-BERT with a sub-character tokenizer outperforms others, recognizing decomposed characters in each hate speech class.",
}

贡献

工作的贡献者有: