数据集:

ruanchaves/nru_hse

语言:

ru

计算机处理:

monolingual

语言创建人:

machine-generated

批注创建人:

expert-generated

源数据集:

original

预印本库:

arxiv:1911.03270
英文

NRU-HSE 数据集卡片

数据集概述

从 vk.com(俄罗斯社交网络)上收集的关于公共服务的多个页面的真实标签,并进行手动分割。

语言

俄语

数据集结构

数据实例

{
  "index": 0, 
  "hashtag": "ЁлкаВЗазеркалье",
  "segmentation": "Ёлка В Зазеркалье"
}

数据字段

  • index: 数字索引。
  • hashtag: 原始标签。
  • segmentation: 标签的黄金分割。

数据集创建

  • 此配置文件上的所有标签分割和标识符拆分数据集具有相同的基本字段:标签和分割或标识符和分割。

  • 标签和分割之间或标识符和分割之间的唯一区别是空格字符。拼写检查、扩展缩写或将字符更正为大写字母放入其他字段。

  • 字母数字字符和任何特殊字符序列(例如 _,:,~)之间始终有空格。

  • 如果有任何命名实体识别和其他标记分类任务的注释,则会在 spans 字段中给出。

附加信息

引用信息

@article{glushkova2019char,
  title={Char-RNN and Active Learning for Hashtag Segmentation},
  author={Glushkova, Taisiya and Artemova, Ekaterina},
  journal={arXiv preprint arXiv:1911.03270},
  year={2019}
}

贡献

此数据集是由 @ruanchaves 在开发 hashformers 库时添加的。