数据集:

kinnews_kirnews

语言:

rn rw

计算机处理:

monolingual

语言创建人:

found

批注创建人:

expert-generated

源数据集:

original

预印本库:

arxiv:2010.12174

许可:

mit
英文

kinnews_kirnews 人类阅读数据卡

数据集摘要

KINNEWS 和 KIRNEWS 是由卢旺达和布隆迪的新闻网站和报纸收集而来的基尼亚卢旺达语和基隆迪语新闻分类数据集,用于低资源单语和跨语言多类分类任务。

支持的任务和排行榜

该数据集可用于基尼亚卢旺达语和基隆迪语新闻文章的文本分类。每篇新闻文章可以归类为14个可能的类别。这些类别包括:

  • 政治
  • 运动
  • 经济
  • 健康
  • 娱乐
  • 历史
  • 科技
  • 文化
  • 宗教
  • 环境
  • 教育
  • 关系

语言

基尼亚卢旺达语和基隆迪语

数据集结构

数据实例

这是数据集中的一个例子:

Field Value
label 1
kin_label/kir_label 'inkino'
url ' 1231321
title 'Primus Ligue\xa0: Imirwi igiye guhura gute ku ndwi ya 6 y’ihiganwa\xa0?'
content ' Inkino zitegekanijwe kuruno wa gatandatu igenekerezo rya 14 Nyakanga umwaka wa 2019...'
en_label 'sport'

数据字段

基尼亚卢旺达语的原始数据版本包含以下字段

  • label:新闻文章的类别
  • kin_label/kir_label:基尼亚卢旺达语/基隆迪语中的对应标签
  • en_label:英文中的对应标签
  • url:新闻文章的URL
  • title:新闻文章的标题
  • content:新闻文章的内容

清理过的版本只包含类别、标题和内容字段

数据拆分

Lang Train Test
Kinyarwandai Raw 17014 4254
Kinyarwandai Clean 17014 4254
Kirundi Raw 3689 923
Kirundi Clean 3689 923

数据集创建

策划理由

[需要更多信息]

源数据

初始数据收集和规范化

[需要更多信息]

谁是源语言的制作人?

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

[需要更多信息]

授权信息

[需要更多信息]

引用信息

@article{niyongabo2020kinnews,
  title={KINNEWS and KIRNEWS: Benchmarking Cross-Lingual Text Classification for Kinyarwanda and Kirundi},
  author={Niyongabo, Rubungo Andre and Qu, Hong and Kreutzer, Julia and Huang, Li},
  journal={arXiv preprint arXiv:2010.12174},
  year={2020}
}

贡献者

感谢 @saradhix 添加了这个数据集。