数据集:

told-br

语言:

pt

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

crowdsourced

批注创建人:

crowdsourced

源数据集:

original

预印本库:

arxiv:2010.04543
英文

"ToLD-Br"数据集的数据卡

数据集概要

ToLD-Br是巴西葡萄牙语中最大的有毒推文数据集,由129名志愿者中挑选出的42名注释员进行众包标注。为了创建一个多元化的群体,注释员的选择目标是形成一个在人口统计学上具有多元性(种族、性取向、年龄、性别)的群体。每个推文由三位注释员标注为6个可能的类别之一:LGBTQ+仇视、仇外、猥亵、侮辱、厌恶妇女和种族主义。

支持的任务和排行榜

- 文本分类-其他-仇恨言论检测:该数据集可用于训练用于仇恨言论检测的模型,可以使用它的多标签类别或将它们分为二进制的仇恨和非仇恨类别。可通过微调一个模型来执行此任务,并实现0.75的F1分数。

语言

数据集中的文本是巴西葡萄牙语,由推特用户使用。相关的BCP-47代码是pt-BR。

数据集结构

数据实例

ToLD-Br有两个版本:二进制和多标签。

多标签:一个数据点由推文文本(字符串)和6个类别组成,这些类别的值范围从0到3,表示注释员对该特定类别的投票数,涵盖了仇恨言论、猥亵、侮辱、种族主义、厌恶妇女和仇外。

多标签ToLD-Br的示例如下:

{'text': '@user bandido dissimulado. esse sérgio moro é uma espécie de mal carater com ditadura e pitadas de atraso'
'homophobia': 0
'obscene': 0
'insult': 2
'racism': 0
'misogyny': 0
'xenophobia': 0}

二进制:一个数据点由推文文本(字符串)和二进制类别“有毒”组成,值为0或1。

二进制ToLD-Br的示例如下:

{'text': '@user bandido dissimulado. esse sérgio moro é uma espécie de mal carater com ditadura e pitadas de atraso'
'toxic': 1}

数据字段

多标签:

  • text:表示用户发布的推文的字符串。提及其他用户的地方通过将提及替换为@user标记进行匿名处理。
  • homophobia:数字值{0、1、2、3},表示注释员将相应推文标记为仇恨言论的投票数。
  • obscene:数字值{0、1、2、3},表示注释员将相应推文标记为猥亵的投票数。
  • insult:数字值{0、1、2、3},表示注释员将相应推文标记为侮辱的投票数。
  • racism:数字值{0、1、2、3},表示注释员将相应推文标记为种族主义的投票数。
  • misogyny:数字值{0、1、2、3},表示注释员将相应推文标记为厌恶妇女的投票数。
  • xenophobia:数字值{0、1、2、3},表示注释员将相应推文标记为仇外的投票数。

二进制:

  • text:表示用户发布的推文的字符串。提及其他用户的地方通过将提及替换为@user标记进行匿名处理。
  • label:数字二进制值{0、1},表示相应文本是否有毒/侮辱性。

数据拆分

多标签:整个数据集包含21000个示例。

二进制:训练集包含16800个示例,验证集包含2100个示例,测试集包含2100个示例。

数据集创建

策划理由

尽管葡萄牙语是世界上第5大使用人数最多的语言,巴西是全球第4个拥有最多独立用户的国家,但巴西葡萄牙语在仇恨言论检测任务中的代表性不足。仅有两个其他数据集可用,其中之一是欧洲葡萄牙语。ToLD-Br比这两个数据集的规模大4倍。此外,这些数据集都没有每个实例有多个注释员的情况。此任务旨在创建一个多样性和多元化的注释员群体,以避免引入注释偏见。

源数据

初始数据收集和标准化

数据在2019年8月的15天内使用Gate Cloud的Tweet Collector进行收集。使用了两种方法收集了1000万条推文:基于关键词的方法和基于用户提及的方法。第一种方法收集了提到以下关键词的推文:

viado,veado,viadinho,veadinho,viadao,veadao,bicha,bixa,bichinha,bixinha,bichona,bixona,baitola,sapatão,sapatao,traveco,bambi,biba,boiola,marica,gayzão,gayzao,flor,florzinha,vagabundo,vagaba,desgraçada,desgraçado,desgracado,arrombado,arrombada,foder,fuder,fudido,fodido,cú,cu,pinto,pau,pal,caralho,caraio,carai,pica,cacete,rola,porra,escroto,buceta,fdp,pqp,vsf,tnc,vtnc,puto,putinho,acéfalo,acefalo,burro,idiota,trouxa,estúpido,estupido,estúpida,canalha,demente,retardado,retardada,verme,maldito,maldita,ridículo,ridiculo,ridícula,ridicula,morfético,morfetico,morfética,morfetica,lazarento,lazarenta,lixo,mongolóide,mongoloide,mongol,asqueroso,asquerosa,cretino,cretina,babaca,pilantra,neguinho,neguinha,pretinho,pretinha,escurinho,escurinha,pretinha,pretinho,crioulo,criolo,crioula,criola,macaco,macaca,gorila,puta,vagabunda,vagaba,mulherzinha,piranha,feminazi,putinha,piriguete,vaca,putinha,bahiano,baiano,baianagem,xingling,xing ling,xing-ling,carioca,paulista,sulista,mineiro,gringo

最受关注的巴西推特账号列表可以在 here 找到。

源语言制片人是谁?

语言制片人是来自巴西的葡萄牙语使用者推特用户。

注释

注释过程

在圣卡洛斯联邦大学发布了一份调查表,要求志愿者对我们的数据集进行注释。共有129人自愿报名,根据他们的人口统计背景选择了42人,以创建一个多元化和多元化的注释组。制定并向注释人员介绍了指导方针。整个过程由于COVID-19大流行而异步进行。使用的工具是Google Sheets。注释员被分成了14组,每组有三名注释员。每个小组为包含1500个推文的文件进行了注释。注释员彼此之间没有联系,也不知道其他注释员正在对相同的推文进行标注。

注释员是谁?

注释员是圣卡洛斯联邦大学Facebook小组中的人。他们的人口统计学如下所述:

Gender
Male 18
Female 24
Sexual Orientation
Heterosexual 22
Bisexual 12
Homosexual 5
Pansexual 3
Ethnicity
White 25
Brown 9
Black 5
Asian 2
Non-Declared 1

年龄在18至37岁之间。

注释员每标注1500个示例支付50雷亚尔(约10美元)。

个人和敏感信息

数据集包含关于仇恶妇女、猥亵、侮辱、种族主义、厌恶妇女和仇外的敏感信息。

推文通过将用户提及替换为@user标签进行了匿名处理。

使用数据的考虑事项

数据的社会影响

该数据集的目的是帮助开发更好的仇恨言论检测系统。

成功完成此任务的系统将能够识别与数据集中可用的类别相关的仇恨言论推文。

偏见讨论

通过选择具有多样化人口统计背景的注释员,努力减少了注释偏见。在数据收集方面,通过使用关键词和用户提及,我们引入了一些偏见,将我们的范围限制在我们创建的关键词和用户列表上。

其他已知限制

由于多标签类别的数据极度不平衡,为该版本的数据集训练出一个稳健的模型是非常困难的。我们建议仅将其用于分析和实验。二进制版本的数据集足够稳健,可以训练出最高76%的F1分数的分类器。

附加信息

数据集策划人员

该数据集由圣卡洛斯联邦大学的João Augusto Leite、Diego Furtado Silva以及英国谢菲尔德大学的Carolina Scarton和Kalina Bontcheva创建。

许可信息

ToLD-Br在Creative Commons BY-SA 4.0下获得许可。

引用信息

@article{DBLP:journals/corr/abs-2010-04543,
  author    = {Joao Augusto Leite and
               Diego F. Silva and
               Kalina Bontcheva and
               Carolina Scarton},
  title     = {Toxic Language Detection in Social Media for Brazilian Portuguese:
               New Dataset and Multilingual Analysis},
  journal   = {CoRR},
  volume    = {abs/2010.04543},
  year      = {2020},
  url       = {https://arxiv.org/abs/2010.04543},
  eprinttype = {arXiv},
  eprint    = {2010.04543},
  timestamp = {Tue, 15 Dec 2020 16:10:16 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2010-04543.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

贡献

感谢 @JAugusto97 提供此数据集。