数据集:

yelp_review_full

语言:

en

计算机处理:

monolingual

大小:

100K<n<1M

语言创建人:

crowdsourced

批注创建人:

crowdsourced

源数据集:

original

预印本库:

arxiv:1509.01626

许可:

other
英文

YelpReviewFull 数据集卡片

数据集概述

Yelp评论数据集包含了来自Yelp的评论数据。该数据集是从Yelp Dataset Challenge 2015数据中提取出来的。

支持的任务和排行榜

  • text-classification,sentiment-classification:该数据集主要用于文本分类任务,即给定文本预测情感。

语言

这些评论主要是用英语书写的。

数据集结构

数据实例

一个典型的数据点包括一个文本和相应的标签。

YelpReviewFull测试集中的一个示例如下:

{
    'label': 0,
    'text': 'I got \'new\' tires from them and within two weeks got a flat. I took my car to a local mechanic to see if i could get the hole patched, but they said the reason I had a flat was because the previous patch had blown - WAIT, WHAT? I just got the tire and never needed to have it patched? This was supposed to be a new tire. \\nI took the tire over to Flynn\'s and they told me that someone punctured my tire, then tried to patch it. So there are resentful tire slashers? I find that very unlikely. After arguing with the guy and telling him that his logic was far fetched he said he\'d give me a new tire \\"this time\\". \\nI will never go back to Flynn\'s b/c of the way this guy treated me and the simple fact that they gave me a used tire!'
}

数据字段

  • 'text':评论文本使用双引号(")进行转义,任何内部的双引号都会使用两个双引号("")进行转义。换行符会使用反斜杠后跟一个“n”字符进行转义,即"\n"。
  • 'label':对应于评论的评分(介于1到5之间)。

数据拆分

Yelp评论完整星级数据集是通过随机选择每个评分从1到5的130,000个训练样本和10,000个测试样本构成的。总共有650,000个训练样本和50,000个测试样本。

数据集创建

策展理由

Yelp评论完整星级数据集是由Xiang Zhang(xiang.zhang@nyu.edu)从Yelp Dataset Challenge 2015中构建的。首次在以下论文中用作文本分类基准:Xiang Zhang, Junbo Zhao, Yann LeCun. Character-level Convolutional Networks for Text Classification. Advances in Neural Information Processing Systems 28(NIPS 2015)。

数据来源

初始数据收集和归一化

[需要更多信息]

谁是源语言的生成者?

[需要更多信息]

注释

注释过程

[需要更多信息]

谁是注释者?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的考虑事项

数据集的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策展人

[需要更多信息]

许可信息

您可以检查官方 yelp-dataset-agreement

引用信息

Xiang Zhang, Junbo Zhao, Yann LeCun. Character-level Convolutional Networks for Text Classification. Advances in Neural Information Processing Systems 28(NIPS 2015)。

贡献

感谢 @hfawaz 添加了该数据集。