STAN Small 数据集卡片

数据集概述

由 Bansal 等人手动标注的斯坦福情感分析数据集。

语言

英文

数据集结构

数据实例

{
    "index": 300,
    "hashtag": "microsoftfail",
    "segmentation": "microsoft fail",
    "alternatives": {
        "segmentation": [
            "Microsoft fail"
        ]
    }
}

数据字段

index: 数值索引。
hashtag: 原始标签。
segmentation: 标签的黄金切分。
alternatives: 其他被认为是黄金切分的切分方式。

尽管“segmentation”与“hashtag”具有完全相同的字符，除了空格外，但在“alternatives”中的切分可能会校正为大写字符。

数据集创建

此配置文件上的所有哈希标签切分和标识符拆分数据集具有相同的基本字段：哈希标签和切分或标识符和切分。
哈希标签和切分或标识符和切分之间的唯一区别是空白字符。拼写检查、扩展缩写或校正为大写字符的操作在其他字段中进行。
字母数字字符和任何特殊字符序列（例如“_”、“:”、“~”等）之间始终有空格。
如果有任何命名实体识别和其他标记分类任务的注释，则会放在“spans”字段中。

附加信息

引用信息

@misc{bansal2015deep,
      title={Towards Deep Semantic Analysis Of Hashtags}, 
      author={Piyush Bansal and Romil Bansal and Vasudeva Varma},
      year={2015},
      eprint={1501.03210},
      archivePrefix={arXiv},
      primaryClass={cs.IR}
}

贡献

此数据集是由 @ruanchaves 在开发 hashformers 库时添加的。

作者:

ruanchaves

数据集大小:

7.6 KB