数据集:
ruanchaves/lynx
语言:
code计算机处理:
monolingual语言创建人:
machine-generated批注创建人:
expert-generated源数据集:
original许可:
license:unknown在编程语言中,标识符是称为符号的标记,用于命名语言实体。标识符可能表示的实体包括变量、类型、标签、子程序和程序包等。
Lynx是一个用于标识符分割的数据集,即在标识符上添加单词之间的空格的任务。
除了标识符分割之外,该数据集的金标签还包括缩写扩展。
{ "index": 3, "identifier": "abspath", "segmentation": "abs path", "expansion": "absolute path", "spans": { "text": [ "abs" ], "expansion": [ "absolute" ], "start": [ 0 ], "end": [ 4 ] } }
此配置文件上的所有hashtag分割和标识符拆分数据集具有相同的基本字段:hashtag和分割或标识符和分割。
hashtag和分割或标识符和分割之间的唯一区别是空格字符。拼写检查、扩展缩写或将字符更正为大写字母等操作包含在其他字段中。
字母数字字符和任何特殊字符(如_、:、~)的序列之间始终有空格。
如果有任何命名实体识别和其他标记分类任务的注释,则放在spans字段中。
@inproceedings{madani2010recognizing, title={Recognizing words from source code identifiers using speech recognition techniques}, author={Madani, Nioosha and Guerrouj, Latifa and Di Penta, Massimiliano and Gueheneuc, Yann-Gael and Antoniol, Giuliano}, booktitle={2010 14th European Conference on Software Maintenance and Reengineering}, pages={68--77}, year={2010}, organization={IEEE} }
此数据集是在开发 hashformers 库时由 @ruanchaves 添加的。