数据集:

offenseval2020_tr

任务:

文本分类

语言:

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

found

批注创建人:

found

源数据集:

original

其他:

offensive-language-classification

许可:

cc-by-2.0

数据集介绍文件清单

英文

OffensEval-TR 2020 数据集卡片

数据集摘要

offenseval-tr-training-v1.tsv 文件包含31,756个带标注的推文。

offenseval-annotation.txt 文件包含注释指南的简短摘要。

Twitter用户提及被替换为 @USER，URL被替换为URL。

每个实例包含一个标签，对应以下子任务之一：

子任务A：冒犯性语言识别；

支持的任务和排行榜

该数据集发布在此 paper 上。

语言

数据集基于土耳其语。

数据集结构

数据实例

二进制数据集，包含（NOT）非冒犯性和（OFF）冒犯性推文。

数据字段

实例以TSV格式包含如下内容：

ID INSTANCE SUBA

文件中的列名如下：

id tweet subtask_a

注释中使用的标签如下所示。任务和标签

（NOT）非冒犯性 - 此帖子不包含冒犯性言论或粗俗语言。
（OFF）冒犯性 - 此帖子包含冒犯性语言或有针对性的（隐晦或直接的）冒犯。

在我们的注释中，如果帖子包含任何形式的不可接受语言（粗俗语言）或有针对性的冒犯，我们将其标记为冒犯性（OFF）。

数据拆分

train	test
31756	3528

数据集创建

策划理由

[需要更多信息]

数据来源

[需要更多信息]

初始数据收集和规范化

[需要更多信息]

谁是源语言制作者？

来自推特。

注释

[需要更多信息]

注释过程

我们以“平面”的方式描述上述标签。然而，我们遵循的注释过程是分层的。以下问答对提供了更类似流程图的步骤

推文是土耳其语且可理解吗？

否：标记推文X以排除，转到下一个推文
是：继续第2步

推文包含冒犯/不恰当语言吗？

否：将推文标记为非，转到第4步
是：继续第3步

推文中的冒犯是否有针对性？

否：将推文标记为教授，转到第4步
是：根据以上定义，选择grp、ind、*oth中的一个或多个。除非清楚该推文针对多个类别进行冒犯，请尽量限制标签数量。

标注决策是否困难（需要更多上下文才能给出准确答案，推文包含讽刺意味，或出于其他原因）？

否：转到下一个推文
是：添加标签X，转到下一个推文

注释者是谁？

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集创建者

[需要更多信息]

许可信息

注释按照 Creative Commons Attribution License (CC-BY) 的条款分发。如果您使用此资源，请引用以下论文。

引用信息

@inproceedings{coltekin2020lrec,
 author  = {\c{C}\"{o}ltekin, \c{C}a\u{g}r{\i}},
 year  = {2020},
 title  = {A Corpus of Turkish Offensive Language on Social Media},
 booktitle  = {Proceedings of The 12th Language Resources and Evaluation Conference},
 pages  = {6174--6184},
 address  = {Marseille, France},
 url  = {https://www.aclweb.org/anthology/2020.lrec-1.758},
}

贡献

感谢 @yavuzKomecoglu 添加此数据集。

作者:

佚名

数据集大小:

12.88 KB