数据集:

nsmc

任务:

文本分类

子任务:

sentiment-classification

语言:

计算机处理:

monolingual

大小:

100K<n<1M

语言创建人:

found

批注创建人:

crowdsourced

源数据集:

original

许可:

cc-by-2.0

数据集介绍文件清单

英文

Naver情感电影语料库数据卡

数据集摘要

[需要更多信息]

支持的任务和排行榜

[需要更多信息]

语言

[需要更多信息]

数据集结构

数据实例

[需要更多信息]

数据字段

每个实例都是由韩国互联网用户在Naver上撰写的电影评论。每行可以拆分为以下字段：

id：由Naver提供的唯一评论ID
document：实际的电影评论
label：情感分析的二进制标签，其中0表示负面，1表示正面

数据拆分

[需要更多信息]

数据集创建

策划理由

[需要更多信息]

源数据

初始数据收集和规范化

[需要更多信息]

谁是源语言的生产者？

[需要更多信息]

注释

注释过程

[需要更多信息]

谁是标注者？

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

@InProceedings{Park:2016,
  title        = "Naver Sentiment Movie Corpus",
  author       = "Lucy Park",
  year         = "2016",
  howpublished = {\\url{https://github.com/e9t/nsmc}}
}

贡献

感谢 @jaketae 添加此数据集。

作者:

佚名

数据集大小:

9.54 KB