数据集:

strombergnlp/offenseval_2020

英文

数据集卡片 - "offenseval_2020"

数据集概述

OffensEval 2020 是一个包含五种语言的多语言数据集。OffensEval 2020 中包含的语言有:

  • 阿拉伯语
  • 丹麦语
  • 英语
  • 希腊语
  • 土耳其语

标注遵循 Offensive Language Identification Dataset (OLID) 中提出的分层标签集,并应用于 OffensEval 2019 中。在这个分类系统中,我们将冒犯性内容分为以下三个子任务,考虑到冒犯内容的类型和目标。我们组织了以下子任务:

  • 子任务A - 冒犯语言识别;
  • 子任务B - 冒犯类型的自动分类;
  • 子任务C - 冒犯目标的识别。

英语的训练数据被省略,因此需要单独收集(参见 https://zenodo.org/record/3950379#.XxZ-aFVKipp )。

源数据集来自:

支持的任务和排行榜

语言

一共涵盖了五种语言:bcp47 ar;da;en;gr;tr

数据集结构

有五个命名配置,每个语言对应一个:

  • ar 阿拉伯语
  • da 丹麦语
  • en 英语
  • gr 希腊语
  • tr 土耳其语

英语的训练数据缺失 - 这需要单独补充,其中包含了900万条推文。请参见 https://zenodo.org/record/3950379#.XxZ-aFVKipp

数据实例

“train” 的一个示例如下:

{
  'id': '0', 
  'text': 'PLACEHOLDER TEXT', 
  'subtask_a': 1, 
}

数据字段

  • id : 一个字符串类型的特征。
  • text : 一个字符串。
  • subtask_a : 实例是否具有冒犯性;0:非冒犯,1:冒犯

数据划分

name train test
ar 7839 1827
da 2961 329
en 0 3887
gr 8743 1544
tr 31277 3515

数据集创建

策划理由

收集滥用语言分类的数据。每个数据集都有不同的策划理由。

源数据

初始数据收集和标准化

每个语言数据集不同

谁是源语言的生产者?

社交媒体用户

标注

标注过程

每个语言数据集不同

谁是标注者?

每个语言数据集不同,标注者是母语使用者

个人和敏感信息

数据在采集时是公开的。尚未执行个人信息删除。

使用数据的注意事项

数据的社会影响

数据中肯定包含了冒犯性语言。这些数据可以用来开发和传播针对各个目标群体的冒犯性语言,如对残疾人、种族主义者、性别歧视者、年龄歧视者等等。

偏见的讨论

其他已知限制

其他信息

数据集策划者

数据集由每个子部分的论文作者进行策划。

许可信息

此数据可在 Creative Commons 署名许可协议 (CC-BY 4.0) 下使用和分发。

引用信息

@inproceedings{zampieri-etal-2020-semeval,
    title = "{S}em{E}val-2020 Task 12: Multilingual Offensive Language Identification in Social Media ({O}ffens{E}val 2020)",
    author = {Zampieri, Marcos  and
      Nakov, Preslav  and
      Rosenthal, Sara  and
      Atanasova, Pepa  and
      Karadzhov, Georgi  and
      Mubarak, Hamdy  and
      Derczynski, Leon  and
      Pitenis, Zeses  and
      {\c{C}}{\"o}ltekin, {\c{C}}a{\u{g}}r{\i}},
    booktitle = "Proceedings of the Fourteenth Workshop on Semantic Evaluation",
    month = dec,
    year = "2020",
    address = "Barcelona (online)",
    publisher = "International Committee for Computational Linguistics",
    url = "https://aclanthology.org/2020.semeval-1.188",
    doi = "10.18653/v1/2020.semeval-1.188",
    pages = "1425--1447",
    abstract = "We present the results and the main findings of SemEval-2020 Task 12 on Multilingual Offensive Language Identification in Social Media (OffensEval-2020). The task included three subtasks corresponding to the hierarchical taxonomy of the OLID schema from OffensEval-2019, and it was offered in five languages: Arabic, Danish, English, Greek, and Turkish. OffensEval-2020 was one of the most popular tasks at SemEval-2020, attracting a large number of participants across all subtasks and languages: a total of 528 teams signed up to participate in the task, 145 teams submitted official runs on the test data, and 70 teams submitted system description papers.",
}

贡献

作者添加的数据集 @leondz