数据集:

ttc4900

语言:

tr

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

found

批注创建人:

found

源数据集:

original
英文

TTC4900: 一个用于土耳其文本分类的基准数据集的数据卡

数据集摘要

数据集取自 kemik group 。数据已经过预处理以进行文本分类,找到了搭配词组,纠正了字符集等。我们根据 "A Knowledge-poor Approach to Turkish Text Categorization with a Comparative Analysis, Proceedings of CICLING 2014, Springer LNCS, Nepal, 2014" 研究中共享的TTC 3600数据集的命名惯例将其命名为TTC4900。

如果您在论文中使用该数据集,请引用 https://www.kaggle.com/savasy/ttc4900 作为脚注,并引用以下一篇论文:

  • 《不同文档表示方法在土耳其语中的比较》,SDU自然与应用科学学报,2018年第22卷,第2期
  • 《土耳其语文本分类的比较分析》,帕穆克卡莱大学工程科学学报,2018年第25卷第5期
  • 《一种知识匮乏的土耳其文本分类方法及比较分析》,CICLING 2014会议论文集,Springer LNCS,尼泊尔,2014年

支持的任务和排行榜

[需要更多信息]

语言

数据集基于土耳其语。

数据集结构

数据示例

一个具有7个不同新闻类别的文本分类数据集。

这是数据集中的一个示例:

{
"category": 0,  # politics/siyaset
"text": "paris teki infaz imralı ile başlayan sürece bir darbe mi elif_çakır ın sunduğu söz_bitmeden in bugünkü konuğu gazeteci melih altınok oldu programdan satıbaşları imralı ile görüşmeler hangi aşamada bundan sonra ne olacak hangi kesimler sürece engel oluyor psikolojik mayınlar neler türk solu bu dönemde evrensel sorumluluğunu yerine getirebiliyor mu elif_çakır sordu melih altınok söz_bitmeden de yanıtladı elif_çakır pkk nın silahsızlandırılmasına yönelik olarak öcalan ile görüşme sonrası 3 kadının infazı enteresan çünkü kurucu isimlerden birisi sen nasıl okudun bu infazı melih altınok herkesin ciddi anlamda şüpheleri var şu an yürüttüğümüz herşey bir delile dayanmadığı için komple teorisinden ibaret kalacak ama şöyle bir durum var imralı görüşmelerin ilk defa bir siyasi iktidar tarafından açıkça söylendiği bir dönem ardından geliyor bu sürecin gerçekleşmemesini isteyen kesimler yaptırmıştır dedi"
}

数据字段

  • category:指示新闻文本属于哪个类别(如"政治"、"世界"、"经济"、"文化"、"健康"、"体育"、"技术")。
  • text:包含新闻的文本。

数据拆分

没有划分为训练集和测试集。

数据集创建

策划理由

[需要更多信息]

源数据

初始数据收集和规范化

数据已经过预处理以进行文本分类,找到了搭配词组,纠正了字符集等。

语言提供者是谁?

土耳其在线新闻网站。

标注

注释过程

[需要更多信息]

注释者是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集创建者

该数据集由 Savaş Yıldırım 创建。

许可信息

[需要更多信息]

引用信息

@article{doi:10.5505/pajes.2018.15931,
  author = {Yıldırım, Savaş and Yıldız, Tuğba},
  title = {A comparative analysis of text classification for Turkish language},
  journal = {Pamukkale Univ Muh Bilim Derg},
  volume = {24},
  number = {5},
  pages = {879-886},
  year = {2018},
  doi = {10.5505/pajes.2018.15931},
  note ={doi: 10.5505/pajes.2018.15931},

  URL = {https://dx.doi.org/10.5505/pajes.2018.15931},
  eprint = {https://dx.doi.org/10.5505/pajes.2018.15931}
}

贡献

感谢 @yavuzKomecoglu 添加了这个数据集。