数据集:
kannada_news
任务:
子任务:
topic-classification语言:
计算机处理:
monolingual大小:
1K<n<10K语言创建人:
other批注创建人:
other源数据集:
original许可:
kannada_news 数据集仅包含新闻文章标题,分为三个类别:娱乐、科技和体育。
该数据集包含约6300篇新闻文章标题,收集自卡纳达语新闻网站。数据集经过清洗,并包含可用于在卡纳达语中对主题分类模型进行基准测试的训练集和测试集。
[需要更多信息]
卡纳达语 (kn)
数据集包含两个文件:train.csv 和 valid.csv。数据集的示例行如下:
{ 'headline': 'ಫಿಫಾ ವಿಶ್ವಕಪ್ ಫೈನಲ್: ಅತಿರೇಕಕ್ಕೇರಿದ ಸಂಭ್ರಮಾಚರಣೆ; ಅಭಿಮಾನಿಗಳ ಹುಚ್ಚು ವರ್ತನೆಗೆ ವ್ಯಾಪಕ ಖಂಡನೆ', 'label':'sports' }
注意:技术(类别标签:“tech”)主题的示例很少。[需要更多信息]
数据有两个字段:
数据集分为两个拆分部分。所有标题都是从互联网新闻网站上抓取的。
train | validation | |
---|---|---|
Input Sentences | 5167 | 1293 |
[需要更多信息]
[需要更多信息]
谁是源语言的生产者?[需要更多信息]
[需要更多信息]
谁是注释者?[需要更多信息]
[需要更多信息]
对于南印度的语言,特别是卡纳达语,可用于自然语言处理目的的数据相对较少。尽管拥有大约3800万的母语使用者,但该语言在数字化的格式上呈现出不足的情况,并且需要社区的积极贡献来使其不断进步和发展。
然而,该数据集只是帮助人们接触卡纳达语,并帮助促进更多的积极参与,以实现持续的进步和发展。
[需要更多信息]
[需要更多信息]
[Gaurav Arora] ( https://github.com/goru001/nlp-for-kannada )。还提供了一些起始模型和嵌入以帮助入门。
cc-by-sa-4.0
https://www.kaggle.com/disisbig/kannada-news-dataset
感谢 @vrindaprabhu 添加了该数据集。