数据集:
strombergnlp/offenseval_2020
OffensEval 2020 是一个包含五种语言的多语言数据集。OffensEval 2020 中包含的语言有:
标注遵循 Offensive Language Identification Dataset (OLID) 中提出的分层标签集,并应用于 OffensEval 2019 中。在这个分类系统中,我们将冒犯性内容分为以下三个子任务,考虑到冒犯内容的类型和目标。我们组织了以下子任务:
英语的训练数据被省略,因此需要单独收集(参见 https://zenodo.org/record/3950379#.XxZ-aFVKipp )。
源数据集来自:
一共涵盖了五种语言:bcp47 ar;da;en;gr;tr
有五个命名配置,每个语言对应一个:
英语的训练数据缺失 - 这需要单独补充,其中包含了900万条推文。请参见 https://zenodo.org/record/3950379#.XxZ-aFVKipp
“train” 的一个示例如下:
{ 'id': '0', 'text': 'PLACEHOLDER TEXT', 'subtask_a': 1, }
name | train | test |
---|---|---|
ar | 7839 | 1827 |
da | 2961 | 329 |
en | 0 | 3887 |
gr | 8743 | 1544 |
tr | 31277 | 3515 |
收集滥用语言分类的数据。每个数据集都有不同的策划理由。
每个语言数据集不同
谁是源语言的生产者?社交媒体用户
每个语言数据集不同
谁是标注者?每个语言数据集不同,标注者是母语使用者
数据在采集时是公开的。尚未执行个人信息删除。
数据中肯定包含了冒犯性语言。这些数据可以用来开发和传播针对各个目标群体的冒犯性语言,如对残疾人、种族主义者、性别歧视者、年龄歧视者等等。
数据集由每个子部分的论文作者进行策划。
此数据可在 Creative Commons 署名许可协议 (CC-BY 4.0) 下使用和分发。
@inproceedings{zampieri-etal-2020-semeval, title = "{S}em{E}val-2020 Task 12: Multilingual Offensive Language Identification in Social Media ({O}ffens{E}val 2020)", author = {Zampieri, Marcos and Nakov, Preslav and Rosenthal, Sara and Atanasova, Pepa and Karadzhov, Georgi and Mubarak, Hamdy and Derczynski, Leon and Pitenis, Zeses and {\c{C}}{\"o}ltekin, {\c{C}}a{\u{g}}r{\i}}, booktitle = "Proceedings of the Fourteenth Workshop on Semantic Evaluation", month = dec, year = "2020", address = "Barcelona (online)", publisher = "International Committee for Computational Linguistics", url = "https://aclanthology.org/2020.semeval-1.188", doi = "10.18653/v1/2020.semeval-1.188", pages = "1425--1447", abstract = "We present the results and the main findings of SemEval-2020 Task 12 on Multilingual Offensive Language Identification in Social Media (OffensEval-2020). The task included three subtasks corresponding to the hierarchical taxonomy of the OLID schema from OffensEval-2019, and it was offered in five languages: Arabic, Danish, English, Greek, and Turkish. OffensEval-2020 was one of the most popular tasks at SemEval-2020, attracting a large number of participants across all subtasks and languages: a total of 528 teams signed up to participate in the task, 145 teams submitted official runs on the test data, and 70 teams submitted system description papers.", }
作者添加的数据集 @leondz