数据集:

nsmc

语言:

ko

计算机处理:

monolingual

大小:

100K<n<1M

语言创建人:

found

批注创建人:

crowdsourced

源数据集:

original

许可:

cc-by-2.0
英文

Naver情感电影语料库数据卡

数据集摘要

[需要更多信息]

支持的任务和排行榜

[需要更多信息]

语言

[需要更多信息]

数据集结构

数据实例

[需要更多信息]

数据字段

每个实例都是由韩国互联网用户在Naver上撰写的电影评论。每行可以拆分为以下字段:

  • id:由Naver提供的唯一评论ID
  • document:实际的电影评论
  • label:情感分析的二进制标签,其中0表示负面,1表示正面

数据拆分

[需要更多信息]

数据集创建

策划理由

[需要更多信息]

源数据

初始数据收集和规范化

[需要更多信息]

谁是源语言的生产者?

[需要更多信息]

注释

注释过程

[需要更多信息]

谁是标注者?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

@InProceedings{Park:2016,
  title        = "Naver Sentiment Movie Corpus",
  author       = "Lucy Park",
  year         = "2016",
  howpublished = {\\url{https://github.com/e9t/nsmc}}
}

贡献

感谢 @jaketae 添加此数据集。