数据集:

Overfit-GM/turkish-toxic-language

语言:

tr

大小:

10K<n<100K

许可:

apache-2.0
英文

土耳其文毒性语言检测回应

数据集描述

数据集概述

这个文本数据集是从各个在线存在的冒犯性语言数据集中合并而来的土耳其文本集合。该数据集总共包含77,800个实例,每个实例都标记为冒犯性或非冒犯性。

为了确保数据集的完整性,我们使用了多个 transformer 模型来使用伪标签增强数据集。最终数据集的目标是成为土耳其冒犯性语言检测的综合资源。

该数据集提供的格式为 CSV,有关使用的合并数据集的更多详细信息,请参阅参考部分。

加载数据集

要使用 Huggingface 数据集,可以使用下面的代码片段:

from datasets import load_dataset

# If the dataset is gated/private, make sure you have run huggingface-cli login
dataset = load_dataset("Overfit-GM/turkish-toxic-language")

数据集结构

Dataset Information
Number of instances 77,800
Target label distribution
OTHER 37,663
PROFANITY 18,252
INSULT 10,777
RACIST 10,163
SEXIST 945
Number of offensive instances 40,137
Number of non-offensive instances 37,663
Data source distribution
Jigsaw Multilingual Toxic Comments 35,624
Turkish Offensive Language Detection Dataset 39,551
Turkish Cyberbullying Dataset 2,525

来源数据和参考资料