数据集:

kan_hope

任务:

文本分类

子任务:

multi-label-classification

语言:

计算机处理:

multilingual

大小:

1K<n<10K

语言创建人:

crowdsourced

批注创建人:

expert-generated

源数据集:

original

预印本库:

arxiv:2108.04616

其他:

hope-speech-detection

许可:

cc-by-4.0

数据集介绍文件清单

英文

KanHope数据集卡片

数据集概述

KanHope数据集是一个混合编码的卡纳达语-英语数据集，用于希望言论检测。所有文本均从YouTube的评论部分抓取。该数据集包含从YouTube抓取的6,176条混合编码的卡纳达文本，并手动标注为带有希望言论或非希望言论。

支持的任务和排行榜

该任务旨在检测社交媒体上印度德拉维达语（卡纳达语-英语）的混合编码评论/帖子的希望言论内容。评论/帖子可能包含多个句子，但文本的平均句子长度为1。每个评论/帖子的注释在评论/帖子级别进行。这个数据集也存在类不平衡问题，反映了现实世界的情况。

语言

印度德拉维达语（卡纳达语-英语）的混合编码文本。

数据集结构

数据实例

卡纳达语数据集的示例如下：

text	label
�� ͭ� heartly heltidini... plz avrigella namma nimmellara supprt beku	0 (Non_hope speech)
Next song gu kuda alru andre evaga yar comment madidera alla alrru like madi share madi nam industry na next level ge togond hogaona.	1 (Hope Speech)

数据字段

卡纳达语

text：卡纳达语-英语混合编码评论。
label：取值为0或1的整数，对应以下值：“非希望言论”，“希望言论”

数据拆分

train	validation	test
Kannada	4941	618	617

数据集创建

策划理由

近年来，已经开发了许多方法来监测社交媒体平台上的消极情绪的传播，通过消除粗俗、冒犯和激烈的评论。然而，相对较少的研究集中在积极的方面，加强在线论坛中支持性和安慰性的内容。

源数据

初始数据收集和归一化

[需要更多信息]

源语言的生产者是谁？

YouTube用户

注释

注释过程

[需要更多信息]

注释者是谁？

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

@misc{hande2021hope,
      title={Hope Speech detection in under-resourced Kannada language}, 
      author={Adeep Hande and Ruba Priyadharshini and Anbukkarasi Sampath and Kingston Pal Thamburaj and Prabakaran Chandran and Bharathi Raja Chakravarthi},
      year={2021},
      eprint={2108.04616},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

贡献

感谢 @adeepH 添加此数据集。

作者:

佚名

数据集大小:

12.2 KB