数据集:
ruanchaves/stan_small
语言:
en计算机处理:
monolingual语言创建人:
machine-generated批注创建人:
expert-generated源数据集:
original预印本库:
arxiv:1501.03210许可:
license:unknown由 Bansal 等人手动标注的斯坦福情感分析数据集。
英文
{ "index": 300, "hashtag": "microsoftfail", "segmentation": "microsoft fail", "alternatives": { "segmentation": [ "Microsoft fail" ] } }
尽管“segmentation”与“hashtag”具有完全相同的字符,除了空格外,但在“alternatives”中的切分可能会校正为大写字符。
此配置文件上的所有哈希标签切分和标识符拆分数据集具有相同的基本字段:哈希标签和切分或标识符和切分。
哈希标签和切分或标识符和切分之间的唯一区别是空白字符。拼写检查、扩展缩写或校正为大写字符的操作在其他字段中进行。
字母数字字符和任何特殊字符序列(例如“_”、“:”、“~”等)之间始终有空格。
如果有任何命名实体识别和其他标记分类任务的注释,则会放在“spans”字段中。
@misc{bansal2015deep, title={Towards Deep Semantic Analysis Of Hashtags}, author={Piyush Bansal and Romil Bansal and Vasudeva Varma}, year={2015}, eprint={1501.03210}, archivePrefix={arXiv}, primaryClass={cs.IR} }
此数据集是由 @ruanchaves 在开发 hashformers 库时添加的。