数据集:

sst

任务:

文本分类

子任务:

text-scoring sentiment-classification sentiment-scoring

语言:

计算机处理:

monolingual

大小:

100K<n<1M 10K<n<100K

语言创建人:

found

批注创建人:

crowdsourced

源数据集:

original

许可:

license:unknown

数据集介绍文件清单

英文

sst数据集卡片

数据集摘要

斯坦福情感树库（Stanford Sentiment Treebank）是第一个拥有完全标记的解析树的语料库，可以完整分析语言中情感的组合效应。

支持的任务和排行榜

情感评分：每个完整的句子都用一个浮点数标签进行注释，表示其从0.0到1.0的积极情感水平。可以选择只使用完整的句子或包含子句（也称为短语）的贡献。每个短语的标签包含在字典配置中。要获取句子中的所有短语，我们需要访问每个示例附带的解析树。相比之下，ptb配置明确提供了宾夕法尼亚树库格式中的所有带标签的解析树。这里的标签分为从0到4的5个箱。
情感分类：我们可以通过将每个标签四舍五入为0或1来将上述任务转换为二元情感分类任务。

语言

数据集中的文本为英文。

数据集结构

数据实例

对于默认配置：

{'label': 0.7222200036048889,
 'sentence': 'Yet the act is still charming here .',
 'tokens': 'Yet|the|act|is|still|charming|here|.',
 'tree': '15|13|13|10|9|9|11|12|10|11|12|14|14|15|0'}

对于字典配置：

{'label': 0.7361099720001221, 
'phrase': 'still charming'}

对于ptb配置：

{'ptb_tree': '(3 (2 Yet) (3 (2 (2 the) (2 act)) (3 (4 (3 (2 is) (3 (2 still) (4 charming))) (2 here)) (2 .))))'}

数据字段

sentence：表示对电影发表意见的完整句子。
label：意见的“积极性”程度，介于0.0和1.0之间的标度。
tokens：形成句子的一系列标记。
tree：以父指针树格式化的句子解析树。
phrase：完整句子的子句。
ptb_tree：以宾夕法尼亚树库风格格式化的句子解析树，其中标记每个组件的积极情感程度，范围从0到4。

数据拆分

完整句子的数据集（包括默认和ptb配置）被拆分为训练集、验证集和测试集。字典配置只有一个拆分，用于参考而非学习。

数据集创建

策划理由

[需要更多信息]

源数据

初始数据收集和规范化

[需要更多信息]

谁是源语言的生产者？

Rotten Tomatoes评论员。

注释

注释过程

[需要更多信息]

谁是注释者？

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

@inproceedings{socher-etal-2013-recursive,
    title = "Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank",
    author = "Socher, Richard  and
      Perelygin, Alex  and
      Wu, Jean  and
      Chuang, Jason  and
      Manning, Christopher D.  and
      Ng, Andrew  and
      Potts, Christopher",
    booktitle = "Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing",
    month = oct,
    year = "2013",
    address = "Seattle, Washington, USA",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/D13-1170",
    pages = "1631--1642",
}

贡献者

感谢 @patpizio 添加了这个数据集。

作者:

佚名

数据集大小:

22.43 KB