数据集:
ruanchaves/hatebr
任务:
文本分类语言:
pt计算机处理:
monolingual大小:
1K<n<10K语言创建人:
found批注创建人:
expert-generated源数据集:
original其他:
instagram数字对象标识符:
10.57967/hf/0274HateBR是首个大规模巴西Instagram评论的专家标注恶意言论和侮辱性语言检测的数据集,用于网络和社交媒体上的数据。HateBR语料库是从巴西政治家的Instagram评论中收集并由专家手工标注的。它由7,000个文档组成,根据三个不同的层次进行了注释:二分类(侮辱性与非侮辱性评论),侮辱程度(高度、中度和轻度侮辱性消息),以及九个仇恨言论组(仇外主义、种族主义、恐同、性别歧视、宗教不容忍、党派主义、对独裁的赞扬、反犹太主义和厌胖症)。每条评论由三个不同的标注者进行了标注,并获得了高度的标注者间一致性。此外,基准实验达到了85%的F1分数,超过了目前用于葡萄牙语的文献模型。因此,我们希望这个经过专家标注的语料库能够促进自然语言处理领域对恶意言论和侮辱性语言检测的研究。
相关链接:
恶意言论检测
葡萄牙语
{'instagram_comments': 'Hipocrita!!', 'offensive_language': True, 'offensiveness_levels': 2, 'antisemitism': False, 'apology_for_the_dictatorship': False, 'fatphobia': False, 'homophobia': False, 'partyism': False, 'racism': False, 'religious_intolerance': False, 'sexism': False, 'xenophobia': False, 'offensive_&_non-hate_speech': True, 'non-offensive': False, 'specialist_1_hate_speech': False, 'specialist_2_hate_speech': False, 'specialist_3_hate_speech': False }
原始数据集的作者没有提出标准的数据分割。为解决这个问题,我们使用了scikit-multilearn库中实现的 multi-label data stratification technique 方法提出了训练-验证-测试分割。该方法考虑了数据中所有恶意言论类别,并尝试在分割中平衡每个类别的表示。
name | train | validation | test |
---|---|---|---|
hatebr | 4480 | 1120 | 1400 |
请参阅 the HateBR paper 以获取偏见讨论。
HateBR数据集及其所有组件仅供学术和研究目的使用。未经 SINCH 事先书面同意,严禁将数据集用于任何商业或非学术用途。
@inproceedings{vargas2022hatebr, title={HateBR: A Large Expert Annotated Corpus of Brazilian Instagram Comments for Offensive Language and Hate Speech Detection}, author={Vargas, Francielle and Carvalho, Isabelle and de G{\'o}es, Fabiana Rodrigues and Pardo, Thiago and Benevenuto, Fabr{\'\i}cio}, booktitle={Proceedings of the Thirteenth Language Resources and Evaluation Conference}, pages={7174--7183}, year={2022} }
感谢 @ruanchaves 添加了这个数据集。