数据集:

kan_hope

语言:

en kn

计算机处理:

multilingual

大小:

1K<n<10K

语言创建人:

crowdsourced

批注创建人:

expert-generated

源数据集:

original

预印本库:

arxiv:2108.04616

许可:

cc-by-4.0
英文

KanHope数据集卡片

数据集概述

KanHope数据集是一个混合编码的卡纳达语-英语数据集,用于希望言论检测。所有文本均从YouTube的评论部分抓取。该数据集包含从YouTube抓取的6,176条混合编码的卡纳达文本,并手动标注为带有希望言论或非希望言论。

支持的任务和排行榜

该任务旨在检测社交媒体上印度德拉维达语(卡纳达语-英语)的混合编码评论/帖子的希望言论内容。评论/帖子可能包含多个句子,但文本的平均句子长度为1。每个评论/帖子的注释在评论/帖子级别进行。这个数据集也存在类不平衡问题,反映了现实世界的情况。

语言

印度德拉维达语(卡纳达语-英语)的混合编码文本。

数据集结构

数据实例

卡纳达语数据集的示例如下:

text label
��������� ��ͭ� heartly heltidini... plz avrigella namma nimmellara supprt beku 0 (Non_hope speech)
Next song gu kuda alru andre evaga yar comment madidera alla alrru like madi share madi nam industry na next level ge togond hogaona. 1 (Hope Speech)

数据字段

卡纳达语

  • text:卡纳达语-英语混合编码评论。
  • label:取值为0或1的整数,对应以下值:“非希望言论”,“希望言论”

数据拆分

train validation test
Kannada 4941 618 617

数据集创建

策划理由

近年来,已经开发了许多方法来监测社交媒体平台上的消极情绪的传播,通过消除粗俗、冒犯和激烈的评论。然而,相对较少的研究集中在积极的方面,加强在线论坛中支持性和安慰性的内容。

源数据

初始数据收集和归一化

[需要更多信息]

源语言的生产者是谁?

YouTube用户

注释

注释过程

[需要更多信息]

注释者是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

@misc{hande2021hope,
      title={Hope Speech detection in under-resourced Kannada language}, 
      author={Adeep Hande and Ruba Priyadharshini and Anbukkarasi Sampath and Kingston Pal Thamburaj and Prabakaran Chandran and Bharathi Raja Chakravarthi},
      year={2021},
      eprint={2108.04616},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

贡献

感谢 @adeepH 添加此数据集。