数据集:

ruanchaves/hashset_distant_sampled

语言:

hi en

计算机处理:

multilingual

语言创建人:

machine-generated

批注创建人:

machine-generated

源数据集:

original

预印本库:

arxiv:2201.06741
英文

HashSet Distant Sampled 数据集卡片

数据集概述

Hashset 是一个新的数据集,包括1.9k个手动注释和3.3M个松散监督的推文,用于测试哈希标签分割模型的效率。我们比较了Hashset和其他基准数据集(STAN和BOUN)上的最新哈希标签分割模型,通过对比和分析这些数据集的结果,我们认为HashSet可以作为哈希标签分割任务的一个良好基准。

HashSet远程:3.3M个松散收集的驼峰式标签,包含标签和其分割。

HashSet远程抽样是HashSet远程数据集中的20000个驼峰式标签的样本。

语言

印地语和英语。

数据集结构

数据实例

{
  'index': 282559, 
  'hashtag': 'Youth4Nation', 
  'segmentation': 'Youth 4 Nation'
}

数据集创建

  • 此配置文件上的所有哈希标签分割和标识符拆分数据集都具有相同的基本字段: 标签 和 分割 或 标识符 和 分割 。

  • 标签 和 分割 或 标识符 和 分割 之间的唯一区别是空白字符。拼写检查、扩展缩写或将字符更正为大写属于其他字段。

  • 字母数字字符和任何特殊字符(例如 _ , : , ~ )的序列之间始终有空格。

  • 如果存在用于命名实体识别和其他令牌分类任务的任何注释,则将它们放在 spans 字段中。

其他信息

引用信息

@article{kodali2022hashset,
  title={HashSet--A Dataset For Hashtag Segmentation},
  author={Kodali, Prashant and Bhatnagar, Akshala and Ahuja, Naman and Shrivastava, Manish and Kumaraguru, Ponnurangam},
  journal={arXiv preprint arXiv:2201.06741},
  year={2022}
}

贡献

此数据集由 @ruanchaves 在开发 hashformers 库时添加。