数据集:

offenseval2020_tr

语言:

tr

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

found

批注创建人:

found

源数据集:

original

许可:

cc-by-2.0
英文

OffensEval-TR 2020 数据集卡片

数据集摘要

offenseval-tr-training-v1.tsv 文件包含31,756个带标注的推文。

offenseval-annotation.txt 文件包含注释指南的简短摘要。

Twitter用户提及被替换为 @USER,URL被替换为URL。

每个实例包含一个标签,对应以下子任务之一:

  • 子任务A:冒犯性语言识别;

支持的任务和排行榜

该数据集发布在此 paper 上。

语言

数据集基于土耳其语。

数据集结构

数据实例

二进制数据集,包含(NOT)非冒犯性和(OFF)冒犯性推文。

数据字段

实例以TSV格式包含如下内容:

ID INSTANCE SUBA

文件中的列名如下:

id tweet subtask_a

注释中使用的标签如下所示。 任务和标签

  • (NOT)非冒犯性 - 此帖子不包含冒犯性言论或粗俗语言。
  • (OFF)冒犯性 - 此帖子包含冒犯性语言或有针对性的(隐晦或直接的)冒犯。

在我们的注释中,如果帖子包含任何形式的不可接受语言(粗俗语言)或有针对性的冒犯,我们将其标记为冒犯性(OFF)。

数据拆分

train test
31756 3528

数据集创建

策划理由

[需要更多信息]

数据来源

[需要更多信息]

初始数据收集和规范化

[需要更多信息]

谁是源语言制作者?

来自推特。

注释

[需要更多信息]

注释过程

我们以“平面”的方式描述上述标签。然而,我们遵循的注释过程是分层的。以下问答对提供了更类似流程图的步骤

  • 推文是土耳其语且可理解吗?
    • 否:标记推文X以排除,转到下一个推文
    • 是:继续第2步
  • 推文包含冒犯/不恰当语言吗?
    • 否:将推文标记为非,转到第4步
    • 是:继续第3步
  • 推文中的冒犯是否有针对性?
    • 否:将推文标记为教授,转到第4步
    • 是:根据以上定义,选择grp、ind、*oth中的一个或多个。除非清楚该推文针对多个类别进行冒犯,请尽量限制标签数量。
  • 标注决策是否困难(需要更多上下文才能给出准确答案,推文包含讽刺意味,或出于其他原因)?
    • 否:转到下一个推文
    • 是:添加标签X,转到下一个推文
  • 注释者是谁?

    [需要更多信息]

    个人和敏感信息

    [需要更多信息]

    使用数据的注意事项

    数据的社会影响

    [需要更多信息]

    偏见讨论

    [需要更多信息]

    其他已知限制

    [需要更多信息]

    其他信息

    数据集创建者

    [需要更多信息]

    许可信息

    注释按照 Creative Commons Attribution License (CC-BY) 的条款分发。如果您使用此资源,请引用以下论文。

    引用信息

    @inproceedings{coltekin2020lrec,
     author  = {\c{C}\"{o}ltekin, \c{C}a\u{g}r{\i}},
     year  = {2020},
     title  = {A Corpus of Turkish Offensive Language on Social Media},
     booktitle  = {Proceedings of The 12th Language Resources and Evaluation Conference},
     pages  = {6174--6184},
     address  = {Marseille, France},
     url  = {https://www.aclweb.org/anthology/2020.lrec-1.758},
    }
    

    贡献

    感谢 @yavuzKomecoglu 添加此数据集。