HashSet Distant 数据集卡片

数据集概述

Hashset 是一个新的数据集，包含了1.9k个手动注释和3.3M个松散监督的推特，用于测试哈希标签分割模型的效率。我们在 Hashset 和其他基准数据集（STAN和BOUN）上比较了最先进的哈希标签分割模型。我们对这些数据集的结果进行比较和分析，以说明 HashSet 可以作为哈希标签分割任务的良好基准。

HashSet Distant: 3.3M个松散收集的骆驼大小写混合哈希标签，包含了哈希标签和它们的分割结果。

语言

印地语和英语。

数据集结构

数据实例

{
  'index': 282559, 
  'hashtag': 'Youth4Nation', 
  'segmentation': 'Youth 4 Nation'
}

数据集创建

这个数据集上的所有哈希标签分割和标识符分割数据集都具有相同的基本字段：哈希标签和分割结果或标识符和分割结果。
哈希标签和分割结果之间或标识符和分割结果之间唯一的区别在于空白字符。拼写检查、扩展缩写或将字符更正为大写字母的操作在其他字段中进行。
字母数字字符和任何特殊字符序列（如 _ 、: 、~ ）之间始终有空白。
如果有任何用于命名实体识别和其他标记分类任务的注释，则给出在 spans 字段中。

附加信息

引用信息

@article{kodali2022hashset,
  title={HashSet--A Dataset For Hashtag Segmentation},
  author={Kodali, Prashant and Bhatnagar, Akshala and Ahuja, Naman and Shrivastava, Manish and Kumaraguru, Ponnurangam},
  journal={arXiv preprint arXiv:2201.06741},
  year={2022}
}

贡献

此数据集是由 @ruanchaves 添加的，他正在开发 hashformers 库。

作者:

ruanchaves

数据集大小:

6.12 KB