数据集:

roman_urdu

任务:

文本分类

子任务:

sentiment-classification

语言:

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

found

批注创建人:

crowdsourced

源数据集:

original

许可:

license:unknown

数据集介绍文件清单

英文

Roman Urdu 数据集数据卡

数据集概述

[需要更多信息]

支持的任务和排行榜

[需要更多信息]

语言

乌尔都语

数据集结构

[需要更多信息]

数据实例

Wah je wah,Positive,

数据字段

每行包含一个简短的乌尔都语文本，后跟一个情感标签。标签可以是正面、负面、和中性中的一个。请注意，原始源文件是一个逗号分隔的值文件。

句子：一个简短的乌尔都语文本
标签：正面、负面和中性中的一种，表示句子中表达的情感极性

数据集创建

策划理由

[需要更多信息]

源数据

[需要更多信息]

初始数据收集和规范化

[需要更多信息]

谁是源语言的生产者？

[需要更多信息]

注释

注释过程

[需要更多信息]

谁是注释者？

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据集的社会影响

[需要更多信息]

偏差讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

@InProceedings{Sharf:2018,
  title     = "Performing Natural Language Processing on Roman Urdu Datasets",
  authors   = "Zareen Sharf and Saif Ur Rahman",
  booktitle = "International Journal of Computer Science and Network Security",
  volume    = "18",
  number    = "1",
  pages     = "141-148",
  year      = "2018"
}

@misc{Dua:2019,
  author      = "Dua, Dheeru and Graff, Casey",
  year        = "2017",
  title       = "{UCI} Machine Learning Repository",
  url         = "http://archive.ics.uci.edu/ml",
  institution = "University of California, Irvine, School of Information and Computer Sciences"
}

贡献

感谢 @jaketae 添加此数据集。

作者:

佚名

数据集大小:

10.23 KB