数据集:

kannada_news

语言:

kn

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

other

批注创建人:

other

源数据集:

original
英文

kannada_news 数据集卡片

数据集概述

kannada_news 数据集仅包含新闻文章标题,分为三个类别:娱乐、科技和体育。

该数据集包含约6300篇新闻文章标题,收集自卡纳达语新闻网站。数据集经过清洗,并包含可用于在卡纳达语中对主题分类模型进行基准测试的训练集和测试集。

支持的任务和排行榜

[需要更多信息]

语言

卡纳达语 (kn)

数据集结构

数据实例

数据集包含两个文件:train.csv 和 valid.csv。数据集的示例行如下:

{
  'headline': 'ಫಿಫಾ ವಿಶ್ವಕಪ್ ಫೈನಲ್: ಅತಿರೇಕಕ್ಕೇರಿದ ಸಂಭ್ರಮಾಚರಣೆ; ಅಭಿಮಾನಿಗಳ ಹುಚ್ಚು ವರ್ತನೆಗೆ ವ್ಯಾಪಕ ಖಂಡನೆ',
  'label':'sports'
}

注意:技术(类别标签:“tech”)主题的示例很少。[需要更多信息]

数据字段

数据有两个字段:

  • headline: 卡纳达语中的文本标题 (string)
  • label: 标题所属的对应类别标签(英文) (string)

数据拆分

数据集分为两个拆分部分。所有标题都是从互联网新闻网站上抓取的。

train validation
Input Sentences 5167 1293

数据集创建

策划理由

[需要更多信息]

数据源

初始数据收集和规范化

[需要更多信息]

谁是源语言的生产者?

[需要更多信息]

注释

注释过程

[需要更多信息]

谁是注释者?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

对于南印度的语言,特别是卡纳达语,可用于自然语言处理目的的数据相对较少。尽管拥有大约3800万的母语使用者,但该语言在数字化的格式上呈现出不足的情况,并且需要社区的积极贡献来使其不断进步和发展。

然而,该数据集只是帮助人们接触卡纳达语,并帮助促进更多的积极参与,以实现持续的进步和发展。

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集贡献者

[Gaurav Arora] ( https://github.com/goru001/nlp-for-kannada )。还提供了一些起始模型和嵌入以帮助入门。

许可信息

cc-by-sa-4.0

引用信息

https://www.kaggle.com/disisbig/kannada-news-dataset

贡献

感谢 @vrindaprabhu 添加了该数据集。