数据集:
kan_hope
任务:
计算机处理:
multilingual大小:
1K<n<10K语言创建人:
crowdsourced批注创建人:
expert-generated源数据集:
original预印本库:
arxiv:2108.04616许可:
KanHope数据集是一个混合编码的卡纳达语-英语数据集,用于希望言论检测。所有文本均从YouTube的评论部分抓取。该数据集包含从YouTube抓取的6,176条混合编码的卡纳达文本,并手动标注为带有希望言论或非希望言论。
该任务旨在检测社交媒体上印度德拉维达语(卡纳达语-英语)的混合编码评论/帖子的希望言论内容。评论/帖子可能包含多个句子,但文本的平均句子长度为1。每个评论/帖子的注释在评论/帖子级别进行。这个数据集也存在类不平衡问题,反映了现实世界的情况。
印度德拉维达语(卡纳达语-英语)的混合编码文本。
卡纳达语数据集的示例如下:
text | label |
---|---|
��������� ��ͭ� heartly heltidini... plz avrigella namma nimmellara supprt beku | 0 (Non_hope speech) |
Next song gu kuda alru andre evaga yar comment madidera alla alrru like madi share madi nam industry na next level ge togond hogaona. | 1 (Hope Speech) |
卡纳达语
train | validation | test | |
---|---|---|---|
Kannada | 4941 | 618 | 617 |
近年来,已经开发了许多方法来监测社交媒体平台上的消极情绪的传播,通过消除粗俗、冒犯和激烈的评论。然而,相对较少的研究集中在积极的方面,加强在线论坛中支持性和安慰性的内容。
[需要更多信息]
源语言的生产者是谁?YouTube用户
[需要更多信息]
注释者是谁?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
@misc{hande2021hope, title={Hope Speech detection in under-resourced Kannada language}, author={Adeep Hande and Ruba Priyadharshini and Anbukkarasi Sampath and Kingston Pal Thamburaj and Prabakaran Chandran and Bharathi Raja Chakravarthi}, year={2021}, eprint={2108.04616}, archivePrefix={arXiv}, primaryClass={cs.CL} }
感谢 @adeepH 添加此数据集。