数据集:

sst

英文

sst数据集卡片

数据集摘要

斯坦福情感树库(Stanford Sentiment Treebank)是第一个拥有完全标记的解析树的语料库,可以完整分析语言中情感的组合效应。

支持的任务和排行榜

  • 情感评分:每个完整的句子都用一个浮点数标签进行注释,表示其从0.0到1.0的积极情感水平。可以选择只使用完整的句子或包含子句(也称为短语)的贡献。每个短语的标签包含在字典配置中。要获取句子中的所有短语,我们需要访问每个示例附带的解析树。相比之下,ptb配置明确提供了宾夕法尼亚树库格式中的所有带标签的解析树。这里的标签分为从0到4的5个箱。
  • 情感分类:我们可以通过将每个标签四舍五入为0或1来将上述任务转换为二元情感分类任务。

语言

数据集中的文本为英文。

数据集结构

数据实例

对于默认配置:

{'label': 0.7222200036048889,
 'sentence': 'Yet the act is still charming here .',
 'tokens': 'Yet|the|act|is|still|charming|here|.',
 'tree': '15|13|13|10|9|9|11|12|10|11|12|14|14|15|0'}

对于字典配置:

{'label': 0.7361099720001221, 
'phrase': 'still charming'}

对于ptb配置:

{'ptb_tree': '(3 (2 Yet) (3 (2 (2 the) (2 act)) (3 (4 (3 (2 is) (3 (2 still) (4 charming))) (2 here)) (2 .))))'}

数据字段

  • sentence:表示对电影发表意见的完整句子。
  • label:意见的“积极性”程度,介于0.0和1.0之间的标度。
  • tokens:形成句子的一系列标记。
  • tree:以父指针树格式化的句子解析树。
  • phrase:完整句子的子句。
  • ptb_tree:以宾夕法尼亚树库风格格式化的句子解析树,其中标记每个组件的积极情感程度,范围从0到4。

数据拆分

完整句子的数据集(包括默认和ptb配置)被拆分为训练集、验证集和测试集。字典配置只有一个拆分,用于参考而非学习。

数据集创建

策划理由

[需要更多信息]

源数据

初始数据收集和规范化

[需要更多信息]

谁是源语言的生产者?

Rotten Tomatoes评论员。

注释

注释过程

[需要更多信息]

谁是注释者?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

@inproceedings{socher-etal-2013-recursive,
    title = "Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank",
    author = "Socher, Richard  and
      Perelygin, Alex  and
      Wu, Jean  and
      Chuang, Jason  and
      Manning, Christopher D.  and
      Ng, Andrew  and
      Potts, Christopher",
    booktitle = "Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing",
    month = oct,
    year = "2013",
    address = "Seattle, Washington, USA",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/D13-1170",
    pages = "1631--1642",
}

贡献者

感谢 @patpizio 添加了这个数据集。