数据集:

blinoff/kinopoisk

大小:

10K<n<100K

计算机处理:

monolingual

语言:

ru
英文

数据集概要

Kinopoisk电影评论数据集(TOP250和BOTTOM100排行榜)。

总共包含36,591条评论,时间跨度从2004年7月到2012年11月。

分布如下,根据3点情感评分尺度:

  • 好评:27,264条;
  • 差评:4,751条;
  • 中立评价:4,576条。

数据字段

每个样本包含以下字段:

  • 部分:排行榜top250或bottom100;
  • 电影名称;
  • 评论ID;
  • 作者:评论作者;
  • 日期:评论日期;
  • 标题:评论标题;
  • 评分3:好评,差评或中立评价;
  • 评分10:从文本中解析出的10点情感评分;
  • 内容:评论文本。

Python

import pandas as pd
df = pd.read_json('kinopoisk.jsonl', lines=True)
df.sample(5)

引用

@article{blinov2013research,
  title={Research of lexical approach and machine learning methods for sentiment analysis},
  author={Blinov, PD and Klekovkina, Maria and Kotelnikov, Eugeny and Pestov, Oleg},
  journal={Computational Linguistics and Intellectual Technologies},
  volume={2},
  number={12},
  pages={48--58},
  year={2013}
}