数据集:
ruanchaves/hashset_distant_sampled
计算机处理:
multilingual语言创建人:
machine-generated批注创建人:
machine-generated源数据集:
original预印本库:
arxiv:2201.06741许可:
license:unknownHashset 是一个新的数据集,包括1.9k个手动注释和3.3M个松散监督的推文,用于测试哈希标签分割模型的效率。我们比较了Hashset和其他基准数据集(STAN和BOUN)上的最新哈希标签分割模型,通过对比和分析这些数据集的结果,我们认为HashSet可以作为哈希标签分割任务的一个良好基准。
HashSet远程:3.3M个松散收集的驼峰式标签,包含标签和其分割。
HashSet远程抽样是HashSet远程数据集中的20000个驼峰式标签的样本。
印地语和英语。
{ 'index': 282559, 'hashtag': 'Youth4Nation', 'segmentation': 'Youth 4 Nation' }
此配置文件上的所有哈希标签分割和标识符拆分数据集都具有相同的基本字段: 标签 和 分割 或 标识符 和 分割 。
标签 和 分割 或 标识符 和 分割 之间的唯一区别是空白字符。拼写检查、扩展缩写或将字符更正为大写属于其他字段。
字母数字字符和任何特殊字符(例如 _ , : , ~ )的序列之间始终有空格。
如果存在用于命名实体识别和其他令牌分类任务的任何注释,则将它们放在 spans 字段中。
@article{kodali2022hashset, title={HashSet--A Dataset For Hashtag Segmentation}, author={Kodali, Prashant and Bhatnagar, Akshala and Ahuja, Naman and Shrivastava, Manish and Kumaraguru, Ponnurangam}, journal={arXiv preprint arXiv:2201.06741}, year={2022} }
此数据集由 @ruanchaves 在开发 hashformers 库时添加。