数据集:

hate_speech_filipino

英文

菲律宾仇恨言论数据集卡片

数据集摘要

包含10k条推文(训练集),标记为仇恨言论或非仇恨言论。配有4,232个验证样本和4,232个测试样本。收集于2016年菲律宾总统选举期间。

支持的任务和排行榜

[需要更多信息]

语言

数据集主要为菲律宾语,同时还包括一些常用于菲律宾方言的英语词汇

数据集结构

数据实例

示例数据:

{
  "text": "Taas ni Mar Roxas ah. KULTONG DILAW NGA NAMAN",
  "label": 1
}

数据字段

[需要更多信息]

数据拆分

[需要更多信息]

数据集创建

策展理由

通过开发一个可以自动检测和分类菲律宾选举相关推文中仇恨言论的模型,本研究旨在填补这个空白。新闻报道和系统研究已经证实,微博网站Twitter在2016年菲律宾总统选举期间成为支持和仇恨表达的平台。因此,本文解决的特定问题是:现有的语言处理和机器学习技术能否应用于检测菲律宾选举背景下的仇恨言论?

数据来源

初始数据收集和规范化

本研究使用的数据集是Andrade等人在2015年11月至2016年5月期间收集的一个包含1,696,613条推文的子集,这些推文是在菲律宾总统选举的竞选阶段发布的。这些推文是根据候选人姓名(如Binay、Duterte、Poe、Roxas和Santiago)和与选举相关的主题标签(如#Halalan2016、#Eleksyon2016和#PiliPinas2016)筛选出来的。

数据预处理用于准备推文进行特征提取和分类。它包括以下步骤:数据去标识化、统一资源定位符(URL)删除、特殊字符处理、规范化、主题标签处理和分词。

[需要更多信息]

谁是源语言的生成者?

[需要更多信息]

注释

注释过程

[需要更多信息]

谁是注释者?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据时的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策展人

Jan Christian Cruz

许可信息

[需要更多信息]

引文信息

@article{Cabasag-2019-hate-speech, title={Hate speech in Philippine election-related tweets: Automatic detection and classification using natural language processing.}, author={Neil Vicente Cabasag, Vicente Raphael Chan, Sean Christian Lim, Mark Edward Gonzales, and Charibeth Cheng}, journal={Philippine Computing Journal}, volume={XIV}, number={1}, month={August}, year={2019}}

贡献

感谢 @anaerobeth 添加此数据集。