数据集:
TurkuNLP/Suomi24-toxicity-annotated
该数据集包括来自Suomi24的评论,这些评论是使用毒性分类器的预测进行采样的。在每个标签的区间内进行了采样,以强调困难的边界情况。每个标签采样了500条评论。注释过程使用了来自Perspective的标签,例如TurkuNLP/wikipedia-toxicity-data-fi。与多标签不同,我们仅为每个评论注释了一个标签,尽管有几个评论出现在两个标签中。注释过程包括对100-200条评论进行初步注释,然后进行讨论和最终注释。原始数据可以在 here 找到。
进入数据集的示例是达成一致意见或通过讨论解决的示例。
要引用此数据集,请使用以下Bibtex引用。
@inproceedings{eskelinen-etal-2023-toxicity, title = "Toxicity Detection in {F}innish Using Machine Translation", author = "Eskelinen, Anni and Silvala, Laura and Ginter, Filip and Pyysalo, Sampo and Laippala, Veronika", booktitle = "Proceedings of the 24th Nordic Conference on Computational Linguistics (NoDaLiDa)", month = may, year = "2023", address = "T{\'o}rshavn, Faroe Islands", publisher = "University of Tartu Library", url = "https://aclanthology.org/2023.nodalida-1.68", pages = "685--697", abstract = "Due to the popularity of social media platforms and the sheer amount of user-generated content online, the automatic detection of toxic language has become crucial in the creation of a friendly and safe digital space. Previous work has been mostly focusing on English leaving many lower-resource languages behind. In this paper, we present novel resources for toxicity detection in Finnish by introducing two new datasets, a machine translated toxicity dataset for Finnish based on the widely used English Jigsaw dataset and a smaller test set of Suomi24 discussion forum comments originally written in Finnish and manually annotated following the definitions of the labels that were used to annotate the Jigsaw dataset. We show that machine translating the training data to Finnish provides better toxicity detection results than using the original English training data and zero-shot cross-lingual transfer with XLM-R, even with our newly annotated dataset from Suomi24.", }
威胁:描述对个人或团体造成痛苦、伤害或暴力的意图。威胁性:威胁性或鼓励暴力或伤害的语言,包括自残。
亵渎:粗话、咒骂或其他淫秽或亵渎的语言。
侮辱:对个人或群体的侮辱性、炎症性或负面评论。此类评论不一定与身份有关。
身份攻击:针对某人的负面或仇恨言论,因为他们的身份。
毒性:粗鲁、不尊重或不合理的评论,可能导致人们离开讨论。
严重毒性:非常仇恨、侵略、不尊重的评论,或者非常有可能使用户离开讨论或放弃分享自己的观点。此属性对较温和形式的毒性(例如包含积极使用的脏话的评论)不太敏感。
脏话,包括轻微的脏话、拼写错误、掩饰或其他变体;在话题或语境上不适当的性暗示词/术语。
自杀或自残的评论,煽动暴力或自残,假设的情况和希望对某人造成伤害;如果没有明确标记为讽刺的话,很不可能发生的评论;只有针对人的威胁才被注释为威胁。
由其他人而非作者发表的威胁性言论不包括;不包括虚假的陈述。
侮辱一群人的词语(也包括身份攻击);针对政治团体的侮辱,例如"vitun demari/suvakki/persu" -> "fucking liberal/conservative"。
不包括对自己、事物其他人或假设情况的负面侮辱性评论。
没有负面语言但仍然明显负面的评论。
不包括针对政治团体或没有人自认同的团体的负面陈述(除非是侮辱)。
表达不合理的负面评论,无论目标是否存在以及目标是否已知;不包括温和或幽默的脏话;不包括积极或中性的性暗示评论。
仅包含性暗示内容的评论;只需要一个严重毒性元素即可具有此标签,即使评论包含实质性内容,该评论也被视为严重毒性;目标不需要存在,目标也不重要。
Label | Initial (unanimous) | After discussion (unanimous) | Initial (at least 2/3) | After discussion (at least 2/3) |
---|---|---|---|---|
identity attack | 54,5 % | 66,6 % | 92 % | 93,6 % |
insult | 47,5 % | 49,6 % | 94,5 % | 95,6 % |
severe toxicity | 63 % | 66 % | 92 % | 96,6 % |
threat | 82 % | 80,3 % | 98 % | 97,3 % |
toxicity | 58 % | 54 % | 93 % | 89,6 % |
obscene | 69 % | 62 % | 97 % | 96 % |
使用TurkuNLP/bert-large-finnish-cased-toxicity的评估结果。
Label | Precision | Recall | F1 |
---|---|---|---|
identity attack | 73,2 | 32 | 44,6 |
insult | 59,4 | 646,8 | 52,4 |
severe toxicity | 12 | 28,6 | 16,9 |
threat | 32,4 | 28,6 | 30,4 |
toxicity | 60,4 | 79,2 | 68,5 |
obscene | 64,5 | 82,4 | 72,3 |
OVERALL | 57,4 | 58,9 | 51,1 |
OVERALL weighted by original sample counts | 55,5 | 65,5 | 60,1 |
本存储库的内容根据 Creative Commons Attribution-ShareAlike 4.0 International License (CC BY-SA 4.0) 进行分发。数据集内容的版权属于原始版权持有人。