数据集:

ajaykarthick/imdb-movie-reviews

英文

IMDB电影评论

这是一个用于二元情感分类的数据集,包含大量的数据。该数据集包含了50,000条用于训练文本分类模型的高极性电影评论。

数据集从 https://ai.stanford.edu/~amaas/data/sentiment/aclImdb_v1.tar.gz 下载而来

这些数据已经经过处理,并被划分为训练集和测试集(测试集占0.2%)。训练集包含40000条评论,测试集包含10000条评论。

在训练集和测试集中,标签的分布相同。在训练集中,正面和负面类别分别有20000条记录。在测试集中,两个标签都有5000条记录。

引用信息

@InProceedings{maas-EtAl:2011:ACL-HLT2011,
  author    = {Maas, Andrew L.  and  Daly, Raymond E.  and  Pham, Peter T.  and  Huang, Dan  and  Ng, Andrew Y.  and  Potts, Christopher},
  title     = {Learning Word Vectors for Sentiment Analysis},
  booktitle = {Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies},
  month     = {June},
  year      = {2011},
  address   = {Portland, Oregon, USA},
  publisher = {Association for Computational Linguistics},
  pages     = {142--150},
  url       = {http://www.aclweb.org/anthology/P11-1015}
}