数据集:
jeanlee/kmhas_korean_hate_speech
任务:
文本分类语言:
ko计算机处理:
monolingual大小:
100K<n<1M语言创建人:
found批注创建人:
crowdsourced源数据集:
original预印本库:
arxiv:2208.10684许可:
cc-by-sa-4.0韩语多标签仇恨言论数据集 K-MHaS 包含了109,692个来自韩国在线新闻评论的话语,标记有8个细粒度的仇恨言论分类(标签:政治、出身、外貌、年龄、性别、宗教、种族、粗言秽语)或非仇恨言论类别。每个话语可以有一个到四个标签,能够有效处理韩语语言模式。更多详细信息,请参考我们在 COLING 2022 发表的论文 K-MHaS 。
仇恨言论检测
对于多标签分类,从二元分类的“仇恨言论”类中细分为八个类别,与仇恨言论类别相关。为了反映社会和历史背景,我们选择了这八个仇恨言论类别。例如,选定了政治类别,因为它对韩国仇恨言论的风格有着重要的影响。
韩语
数据集以txt格式提供训练/验证/测试集。每个实例是一条新闻评论,附带一个或多个仇恨言论类别(标签:政治、出身、外貌、年龄、性别、宗教、种族、粗言秽语)或非仇恨言论类别。标签编号与英文和韩文对应关系在数据字段部分给出。
{'text':'수꼴틀딱시키들이 다 디져야 나라가 똑바로 될것같다..답이 없는 종자들ㅠ' 'label': [2, 3, 4] }
我们提供的数据集分为训练集、验证集和测试集,其中训练集有78,977个样本,验证集有8,776个样本,测试集有21,939个样本,保持类别比例一致。
我们提出了一个大规模的韩语多标签仇恨言论检测数据集K-MHaS,能够有效地表示韩语语言模式。尽管仇恨言论的主观性不能用相互排斥的注释方案来解释,在仇恨言论研究中的大多数数据集都是使用特定方面的单一标签分类进行注释的。我们提出了一个多标签仇恨言论注释方案,允许与仇恨言论的主观性和交叉性相关的重叠标签。
我们的数据集基于Kaggle和Github上的韩国在线新闻评论。未标记的原始数据收集时间为2018年1月至2020年6月。请参阅我们在 COLING2020 上发表的论文 K-MHaS 中的详细信息。
语言制作者是谁?语言制作者是在2018年至2020年期间在韩国在线新闻平台上留下评论的用户。
我们首先从文献中找到仇恨言论的常见类别,并为每个类别匹配关键词。在初步阶段之后,我们调查结果以合并或删除标签,以提供与文化背景相关的最具代表性的仇恨言论子类型标签。我们的注释说明解释了两层注释,用于(a)区分仇恨言论和非仇恨言论,以及(b)仇恨言论的类别。要求注释者考虑社会、文化和历史环境下每个类别给出的关键词或替代词。更多详细信息,请参考论文 K-MHaS 。
注释者是谁?在初步和主要的注释过程中,我们招募了五名母语为韩语的注释者。
该数据集包含了仇恨言论的例子,但没有个人信息。
我们提出了一个新的韩语仇恨言论检测的大规模数据集K-MHaS,并且使用了多标签注释方案。我们提供了广泛的基线实验结果,展示了数据集在检测韩语仇恨言论中的可用性。
所有注释者都是从众包平台招募的。他们在处理数据之前就仇恨言论进行了了解。我们的说明允许他们自由选择离开,如果他们对内容感到不舒服。关于潜在风险,我们注意到人类注释的主观性会影响数据集的质量。
[需要更多信息]
该数据集由Taejun Lim、Heejun Lee和Bogeun Jo策划。
创作共用署名-相同方式共享4.0国际许可协议(CC-BY-SA-4.0)。
@inproceedings{lee-etal-2022-k, title = "K-{MH}a{S}: A Multi-label Hate Speech Detection Dataset in {K}orean Online News Comment", author = "Lee, Jean and Lim, Taejun and Lee, Heejun and Jo, Bogeun and Kim, Yangsok and Yoon, Heegeun and Han, Soyeon Caren", booktitle = "Proceedings of the 29th International Conference on Computational Linguistics", month = oct, year = "2022", address = "Gyeongju, Republic of Korea", publisher = "International Committee on Computational Linguistics", url = "https://aclanthology.org/2022.coling-1.311", pages = "3530--3538", abstract = "Online hate speech detection has become an important issue due to the growth of online content, but resources in languages other than English are extremely limited. We introduce K-MHaS, a new multi-label dataset for hate speech detection that effectively handles Korean language patterns. The dataset consists of 109k utterances from news comments and provides a multi-label classification using 1 to 4 labels, and handles subjectivity and intersectionality. We evaluate strong baselines on K-MHaS. KR-BERT with a sub-character tokenizer outperforms others, recognizing decomposed characters in each hate speech class.", }
工作的贡献者有: