数据集:
hate_speech_filipino
任务:
文本分类子任务:
sentiment-analysis语言:
tl计算机处理:
monolingual大小:
10K<n<100K语言创建人:
crowdsourced批注创建人:
machine-generated许可:
license:unknown包含10k条推文(训练集),标记为仇恨言论或非仇恨言论。配有4,232个验证样本和4,232个测试样本。收集于2016年菲律宾总统选举期间。
[需要更多信息]
数据集主要为菲律宾语,同时还包括一些常用于菲律宾方言的英语词汇
示例数据:
{ "text": "Taas ni Mar Roxas ah. KULTONG DILAW NGA NAMAN", "label": 1 }
[需要更多信息]
[需要更多信息]
通过开发一个可以自动检测和分类菲律宾选举相关推文中仇恨言论的模型,本研究旨在填补这个空白。新闻报道和系统研究已经证实,微博网站Twitter在2016年菲律宾总统选举期间成为支持和仇恨表达的平台。因此,本文解决的特定问题是:现有的语言处理和机器学习技术能否应用于检测菲律宾选举背景下的仇恨言论?
本研究使用的数据集是Andrade等人在2015年11月至2016年5月期间收集的一个包含1,696,613条推文的子集,这些推文是在菲律宾总统选举的竞选阶段发布的。这些推文是根据候选人姓名(如Binay、Duterte、Poe、Roxas和Santiago)和与选举相关的主题标签(如#Halalan2016、#Eleksyon2016和#PiliPinas2016)筛选出来的。
数据预处理用于准备推文进行特征提取和分类。它包括以下步骤:数据去标识化、统一资源定位符(URL)删除、特殊字符处理、规范化、主题标签处理和分词。
[需要更多信息]
谁是源语言的生成者?[需要更多信息]
[需要更多信息]
谁是注释者?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
Jan Christian Cruz
[需要更多信息]
@article{Cabasag-2019-hate-speech, title={Hate speech in Philippine election-related tweets: Automatic detection and classification using natural language processing.}, author={Neil Vicente Cabasag, Vicente Raphael Chan, Sean Christian Lim, Mark Edward Gonzales, and Charibeth Cheng}, journal={Philippine Computing Journal}, volume={XIV}, number={1}, month={August}, year={2019}}
感谢 @anaerobeth 添加此数据集。