数据集:

ruanchaves/hatebr

语言:

pt

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

found

批注创建人:

expert-generated

源数据集:

original

其他:

instagram

数字对象标识符:

10.57967/hf/0274
英文

巴西葡萄牙语HateBR恶意言论和仇恨言论数据集数据卡片

数据集摘要

HateBR是首个大规模巴西Instagram评论的专家标注恶意言论和侮辱性语言检测的数据集,用于网络和社交媒体上的数据。HateBR语料库是从巴西政治家的Instagram评论中收集并由专家手工标注的。它由7,000个文档组成,根据三个不同的层次进行了注释:二分类(侮辱性与非侮辱性评论),侮辱程度(高度、中度和轻度侮辱性消息),以及九个仇恨言论组(仇外主义、种族主义、恐同、性别歧视、宗教不容忍、党派主义、对独裁的赞扬、反犹太主义和厌胖症)。每条评论由三个不同的标注者进行了标注,并获得了高度的标注者间一致性。此外,基准实验达到了85%的F1分数,超过了目前用于葡萄牙语的文献模型。因此,我们希望这个经过专家标注的语料库能够促进自然语言处理领域对恶意言论和侮辱性语言检测的研究。

相关链接:

支持的任务和排行榜

恶意言论检测

语言

葡萄牙语

数据集结构

数据实例

{'instagram_comments': 'Hipocrita!!',
 'offensive_language': True,
 'offensiveness_levels': 2,
 'antisemitism': False,
 'apology_for_the_dictatorship': False,
 'fatphobia': False,
 'homophobia': False,
 'partyism': False,
 'racism': False,
 'religious_intolerance': False,
 'sexism': False,
 'xenophobia': False,
 'offensive_&_non-hate_speech': True,
 'non-offensive': False,
 'specialist_1_hate_speech': False,
 'specialist_2_hate_speech': False,
 'specialist_3_hate_speech': False
}

数据字段

  • instagram_comments:Instagram评论。
  • offensive_language:将评论分类为侮辱性(True)或非侮辱性(False)。
  • offensiveness_levels:根据评论的侮辱程度进行分类,包括高度侮辱性(3)、中度侮辱性(2)、轻度侮辱性(1)和非侮辱性(0)。
  • antisemitism:评论是否包含反犹太主义言论的分类。
  • apology_for_the_dictatorship:评论是否赞扬巴西军政时期的分类。
  • fatphobia:评论是否含有宣传厌胖症的言论的分类。
  • homophobia:评论是否含有宣传恐同的言论的分类。
  • partyism:评论是否含有宣传党派主义的言论的分类。
  • racism:评论是否含有种族主义言论的分类。
  • religious_intolerance:评论是否含有宣传宗教不容忍的言论的分类。
  • sexism:评论是否含有性别歧视言论的分类。
  • xenophobia:评论是否含有宣传仇外主义的言论的分类。
  • offensive_&_no-hate_speech:评论是否侮辱性但不含恶意言论的分类。
  • specialist_1_hate_speech:评论是否被第一个专家标注为恶意言论的分类。
  • specialist_2_hate_speech:评论是否被第二个专家标注为恶意言论的分类。
  • specialist_3_hate_speech:评论是否被第三个专家标注为恶意言论的分类。

数据分割

原始数据集的作者没有提出标准的数据分割。为解决这个问题,我们使用了scikit-multilearn库中实现的 multi-label data stratification technique 方法提出了训练-验证-测试分割。该方法考虑了数据中所有恶意言论类别,并尝试在分割中平衡每个类别的表示。

name train validation test
hatebr 4480 1120 1400

使用数据的注意事项

偏见讨论

请参阅 the HateBR paper 以获取偏见讨论。

许可信息

HateBR数据集及其所有组件仅供学术和研究目的使用。未经 SINCH 事先书面同意,严禁将数据集用于任何商业或非学术用途。

引用信息

@inproceedings{vargas2022hatebr,
  title={HateBR: A Large Expert Annotated Corpus of Brazilian Instagram Comments for Offensive Language and Hate Speech Detection},
  author={Vargas, Francielle and Carvalho, Isabelle and de G{\'o}es, Fabiana Rodrigues and Pardo, Thiago and Benevenuto, Fabr{\'\i}cio},
  booktitle={Proceedings of the Thirteenth Language Resources and Evaluation Conference},
  pages={7174--7183},
  year={2022}
}

贡献

感谢 @ruanchaves 添加了这个数据集。