数据集:

ruanchaves/hashset_manual

英文

HashSet Manual 数据集卡片

数据集摘要

HashSet 是一个新的数据集,包含了1.9k个手动注释和3.3M个宽松监督的推文,用于测试哈希标记分割模型的效率。我们在 HashSet 和其他基准数据集(STAN和BOUN)上比较了最先进的哈希标记分割模型。我们比较和分析了不同数据集的结果,以证明 HashSet 可以作为哈希标记分割任务的良好基准。

HashSet Manual: 包含了1.9k个手动注释的哈希标记。每一行包含了哈希标记、分割后的哈希标记、命名实体注释、哈希标记是否包含混合的印地语和英文标记以及是否包含非英文标记。

语言

主要为印地语和英文。

数据集结构

数据实例

{
    "index": 10,
    "hashtag": "goodnewsmegan",
    "segmentation": "good news megan",
    "spans": {
        "start": [
            8
        ],
        "end": [
            13
        ],
        "text": [
            "megan"
        ]
    },
    "source": "roman",
    "gold_position": null,
    "mix": false,
    "other": false,
    "ner": true,
    "annotator_id": 1,
    "annotation_id": 2088,
    "created_at": "2021-12-30 17:10:33.800607",
    "updated_at": "2021-12-30 17:10:59.714840",
    "lead_time": 3896.182,
    "rank": {
        "position": [
            1,
            2,
            3,
            4,
            5,
            6,
            7,
            8,
            9,
            10
        ],
        "candidate": [
            "goodnewsmegan",
            "goodnewsmeg an",
            "goodnews megan",
            "goodnewsmega n",
            "go odnewsmegan",
            "good news megan",
            "good newsmegan",
            "g oodnewsmegan",
            "goodnewsme gan",
            "goodnewsm egan"
        ]
    }
}

数据字段

  • index:由Kodali等人注释的数字索引。
  • hashtag:原始哈希标记。
  • segmentation:哈希标记的黄金分割。
  • spans:命名实体跨度。
  • source:数据来源。
  • gold_position:黄金分割在分割字段内的位置。rank 中的域。
  • mix:哈希标记包含英文和印地语标记的混合。
  • other:哈希标记包含非英文标记。
  • ner:哈希标记包含命名实体。
  • annotator_id:注释者ID。
  • annotation_id:注释ID。
  • created_at:创建日期时间戳。
  • updated_at:更新日期时间戳。
  • lead_time:由Kodali等人注释的提前时间字段。
  • rank:通过基线词分割器(WordBreaker)选择的每个候选项的排名。
  • candidates:基线词分割器(WordBreaker)选择的候选项。

数据集创建

  • 所有哈希标记分割和标识符拆分数据集在此资料中具有相同的基本字段:哈希标记和分割或标识符和分割。
  • 哈希标记和分割或标识符和分割之间唯一的区别是空格字符。拼写检查、扩展缩写或更正字符为大写字母的操作放入其他字段中。
  • 字母数字字符和任何特殊字符序列(如 _ 、: 、~ )之间始终有空格。
  • 如果有任何命名实体识别和其他令牌分类任务的注释,则放在 spans 字段中。

其他信息

引用信息

@article{kodali2022hashset,
  title={HashSet--A Dataset For Hashtag Segmentation},
  author={Kodali, Prashant and Bhatnagar, Akshala and Ahuja, Naman and Shrivastava, Manish and Kumaraguru, Ponnurangam},
  journal={arXiv preprint arXiv:2201.06741},
  year={2022}
}

贡献

此数据集由 @ruanchaves 在开发 hashformers 库时添加。