数据集:

strombergnlp/offenseval_2020

任务:

文本分类

子任务:

hate-speech-detection

计算机处理:

multilingual

大小:

10K<n<100K

语言创建人:

found

批注创建人:

expert-generated

源数据集:

original

预印本库:

arxiv:2006.07235 arxiv:2004.02192 arxiv:1908.04531

数据集介绍文件清单

英文

数据集卡片 - "offenseval_2020"

数据集概述

OffensEval 2020 是一个包含五种语言的多语言数据集。OffensEval 2020 中包含的语言有：

阿拉伯语
丹麦语
英语
希腊语
土耳其语

标注遵循 Offensive Language Identification Dataset (OLID) 中提出的分层标签集，并应用于 OffensEval 2019 中。在这个分类系统中，我们将冒犯性内容分为以下三个子任务，考虑到冒犯内容的类型和目标。我们组织了以下子任务：

子任务A - 冒犯语言识别；
子任务B - 冒犯类型的自动分类；
子任务C - 冒犯目标的识别。

英语的训练数据被省略，因此需要单独收集（参见 https://zenodo.org/record/3950379#.XxZ-aFVKipp ）。

源数据集来自：

阿拉伯语 https://arxiv.org/pdf/2004.02192.pdf , https://aclanthology.org/2021.wanlp-1.13/
丹麦语 https://arxiv.org/pdf/1908.04531.pdf , https://aclanthology.org/2020.lrec-1.430/?ref=https://githubhelp.com
英语 https://arxiv.org/pdf/2004.14454.pdf , https://aclanthology.org/2021.findings-acl.80.pdf
希腊语 https://arxiv.org/pdf/2003.07459.pdf , https://aclanthology.org/2020.lrec-1.629/
土耳其语 https://aclanthology.org/2020.lrec-1.758/

支持的任务和排行榜

OffensEval 2020

语言

一共涵盖了五种语言：bcp47 ar;da;en;gr;tr

数据集结构

有五个命名配置，每个语言对应一个：

ar 阿拉伯语
da 丹麦语
en 英语
gr 希腊语
tr 土耳其语

英语的训练数据缺失 - 这需要单独补充，其中包含了900万条推文。请参见 https://zenodo.org/record/3950379#.XxZ-aFVKipp

数据实例

“train” 的一个示例如下：

{
  'id': '0', 
  'text': 'PLACEHOLDER TEXT', 
  'subtask_a': 1, 
}

数据字段

id : 一个字符串类型的特征。
text : 一个字符串。
subtask_a : 实例是否具有冒犯性；0：非冒犯，1：冒犯

数据划分

name	train	test
ar	7839	1827
da	2961	329
en	0	3887
gr	8743	1544
tr	31277	3515

数据集创建

策划理由

收集滥用语言分类的数据。每个数据集都有不同的策划理由。

源数据

初始数据收集和标准化

每个语言数据集不同

谁是源语言的生产者？

社交媒体用户

标注

标注过程

每个语言数据集不同

谁是标注者？

每个语言数据集不同，标注者是母语使用者

个人和敏感信息

数据在采集时是公开的。尚未执行个人信息删除。

使用数据的注意事项

数据的社会影响

数据中肯定包含了冒犯性语言。这些数据可以用来开发和传播针对各个目标群体的冒犯性语言，如对残疾人、种族主义者、性别歧视者、年龄歧视者等等。

偏见的讨论

其他已知限制

其他信息

数据集策划者

数据集由每个子部分的论文作者进行策划。

许可信息

此数据可在 Creative Commons 署名许可协议 (CC-BY 4.0) 下使用和分发。

引用信息

@inproceedings{zampieri-etal-2020-semeval,
    title = "{S}em{E}val-2020 Task 12: Multilingual Offensive Language Identification in Social Media ({O}ffens{E}val 2020)",
    author = {Zampieri, Marcos  and
      Nakov, Preslav  and
      Rosenthal, Sara  and
      Atanasova, Pepa  and
      Karadzhov, Georgi  and
      Mubarak, Hamdy  and
      Derczynski, Leon  and
      Pitenis, Zeses  and
      {\c{C}}{\"o}ltekin, {\c{C}}a{\u{g}}r{\i}},
    booktitle = "Proceedings of the Fourteenth Workshop on Semantic Evaluation",
    month = dec,
    year = "2020",
    address = "Barcelona (online)",
    publisher = "International Committee for Computational Linguistics",
    url = "https://aclanthology.org/2020.semeval-1.188",
    doi = "10.18653/v1/2020.semeval-1.188",
    pages = "1425--1447",
    abstract = "We present the results and the main findings of SemEval-2020 Task 12 on Multilingual Offensive Language Identification in Social Media (OffensEval-2020). The task included three subtasks corresponding to the hierarchical taxonomy of the OLID schema from OffensEval-2019, and it was offered in five languages: Arabic, Danish, English, Greek, and Turkish. OffensEval-2020 was one of the most popular tasks at SemEval-2020, attracting a large number of participants across all subtasks and languages: a total of 528 teams signed up to participate in the task, 145 teams submitted official runs on the test data, and 70 teams submitted system description papers.",
}

贡献

作者添加的数据集 @leondz

作者:

strombergnlp

数据集大小:

8.88 MB