数据集:
ruanchaves/nru_hse
语言:
ru计算机处理:
monolingual语言创建人:
machine-generated批注创建人:
expert-generated源数据集:
original预印本库:
arxiv:1911.03270许可:
license:unknown从 vk.com(俄罗斯社交网络)上收集的关于公共服务的多个页面的真实标签,并进行手动分割。
俄语
{ "index": 0, "hashtag": "ЁлкаВЗазеркалье", "segmentation": "Ёлка В Зазеркалье" }
此配置文件上的所有标签分割和标识符拆分数据集具有相同的基本字段:标签和分割或标识符和分割。
标签和分割之间或标识符和分割之间的唯一区别是空格字符。拼写检查、扩展缩写或将字符更正为大写字母放入其他字段。
字母数字字符和任何特殊字符序列(例如 _,:,~)之间始终有空格。
如果有任何命名实体识别和其他标记分类任务的注释,则会在 spans 字段中给出。
@article{glushkova2019char, title={Char-RNN and Active Learning for Hashtag Segmentation}, author={Glushkova, Taisiya and Artemova, Ekaterina}, journal={arXiv preprint arXiv:1911.03270}, year={2019} }
此数据集是由 @ruanchaves 在开发 hashformers 库时添加的。