BOUN数据集卡片

数据集概述

Dev-BOUN是一个开发集，其中包含500个手动分割的标签。这些标签是从关于电影、电视节目、知名人物、体育队等的推文中选择的。

Test-BOUN是一个测试集，其中包含500个手动分割的标签。这些标签是从关于电影、电视节目、知名人物、体育队等的推文中选择的。

语言

英语

数据集结构

数据实例

{
    "index": 0,
    "hashtag": "tryingtosleep",
    "segmentation": "trying to sleep"
}

数据字段

index：一个数字索引。
hashtag：原始标签。
segmentation：标签的黄金分割。

数据集创建

此配置文件中的所有标签分割和标识符拆分数据集都具有相同的基本字段：标签和分割或标识符和分割。
标签和分割或标识符和分割之间唯一的区别是空格字符。拼写检查、扩展缩写或将字符更正为大写字母都属于其他字段。
字母数字字符与任何特殊字符序列（比如_、:、~）之间始终有空格。
如果有任何用于命名实体识别和其他标记分类任务的注释，则给出在spans字段中给出。

其他信息

引用信息

@article{celebi2018segmenting,
  title={Segmenting hashtags and analyzing their grammatical structure},
  author={Celebi, Arda and {\"O}zg{\"u}r, Arzucan},
  journal={Journal of the Association for Information Science and Technology},
  volume={69},
  number={5},
  pages={675--686},
  year={2018},
  publisher={Wiley Online Library}
}

贡献

在开发 hashformers 库时， @ruanchaves 添加了这个数据集。

作者:

ruanchaves

数据集大小:

6.33 KB