数据集:
kinnews_kirnews
任务:
文本分类计算机处理:
monolingual语言创建人:
found批注创建人:
expert-generated源数据集:
original预印本库:
arxiv:2010.12174许可:
mitKINNEWS 和 KIRNEWS 是由卢旺达和布隆迪的新闻网站和报纸收集而来的基尼亚卢旺达语和基隆迪语新闻分类数据集,用于低资源单语和跨语言多类分类任务。
该数据集可用于基尼亚卢旺达语和基隆迪语新闻文章的文本分类。每篇新闻文章可以归类为14个可能的类别。这些类别包括:
基尼亚卢旺达语和基隆迪语
这是数据集中的一个例子:
Field | Value |
---|---|
label | 1 |
kin_label/kir_label | 'inkino' |
url | ' 1231321 |
title | 'Primus Ligue\xa0: Imirwi igiye guhura gute ku ndwi ya 6 y’ihiganwa\xa0?' |
content | ' Inkino zitegekanijwe kuruno wa gatandatu igenekerezo rya 14 Nyakanga umwaka wa 2019...' |
en_label | 'sport' |
基尼亚卢旺达语的原始数据版本包含以下字段
清理过的版本只包含类别、标题和内容字段
Lang | Train | Test |
---|---|---|
Kinyarwandai Raw | 17014 | 4254 |
Kinyarwandai Clean | 17014 | 4254 |
Kirundi Raw | 3689 | 923 |
Kirundi Clean | 3689 | 923 |
[需要更多信息]
[需要更多信息]
谁是源语言的制作人?[需要更多信息]
[需要更多信息]
注释者是谁?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
@article{niyongabo2020kinnews, title={KINNEWS and KIRNEWS: Benchmarking Cross-Lingual Text Classification for Kinyarwanda and Kirundi}, author={Niyongabo, Rubungo Andre and Qu, Hong and Kreutzer, Julia and Huang, Li}, journal={arXiv preprint arXiv:2010.12174}, year={2020} }
感谢 @saradhix 添加了这个数据集。