数据集:

ruanchaves/snap

语言:

en

计算机处理:

monolingual

语言创建人:

machine-generated

批注创建人:

expert-generated

源数据集:

original
英文

SNAP数据集的数据卡

数据集概述

自动分割的803K SNAP Twitter数据集的标签,使用论文《使用自动生成的训练数据来分割标签》中描述的启发式方法进行分割。

语言

英语

数据集结构

数据实例

{
    "index": 0,
    "hashtag": "BrandThunder",
    "segmentation": "Brand Thunder"
}

数据字段

  • index : 数字索引。
  • hashtag : 原始标签。
  • segmentation : 标签的黄金分割。

数据集创建

  • 此配置文件上的所有标签分割和标识符拆分数据集具有相同的基本字段: hashtag 和 segmentation 或 identifier 和 segmentation。

  • hashtag 和 segmentation 或 identifier 和 segmentation 之间的唯一区别是空格字符。拼写检查、扩展缩写或修正大写字符都放在其他字段中。

  • 字母数字字符和任何特殊字符(如 _ , : , ~ )的序列之间始终存在空格。

  • 如果存在命名实体识别和其他标记分类任务的任何注释,则给出在 spans 字段中给出。

其他信息

引用信息

@inproceedings{celebi2016segmenting,
  title={Segmenting hashtags using automatically created training data},
  author={Celebi, Arda and {\"O}zg{\"u}r, Arzucan},
  booktitle={Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16)},
  pages={2981--2985},
  year={2016}
}

贡献

该数据集是由开发 hashformers 库时由 @ruanchaves 添加的。