数据集:
ruanchaves/snap
语言:
en计算机处理:
monolingual语言创建人:
machine-generated批注创建人:
expert-generated源数据集:
original许可:
license:unknown自动分割的803K SNAP Twitter数据集的标签,使用论文《使用自动生成的训练数据来分割标签》中描述的启发式方法进行分割。
英语
{ "index": 0, "hashtag": "BrandThunder", "segmentation": "Brand Thunder" }
此配置文件上的所有标签分割和标识符拆分数据集具有相同的基本字段: hashtag 和 segmentation 或 identifier 和 segmentation。
hashtag 和 segmentation 或 identifier 和 segmentation 之间的唯一区别是空格字符。拼写检查、扩展缩写或修正大写字符都放在其他字段中。
字母数字字符和任何特殊字符(如 _ , : , ~ )的序列之间始终存在空格。
如果存在命名实体识别和其他标记分类任务的任何注释,则给出在 spans 字段中给出。
@inproceedings{celebi2016segmenting, title={Segmenting hashtags using automatically created training data}, author={Celebi, Arda and {\"O}zg{\"u}r, Arzucan}, booktitle={Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16)}, pages={2981--2985}, year={2016} }
该数据集是由开发 hashformers 库时由 @ruanchaves 添加的。