数据集:
ruanchaves/jhotdraw
语言:
code计算机处理:
monolingual语言创建人:
machine-generated批注创建人:
expert-generated源数据集:
original许可:
license:unknown在编程语言中,标识符是指代语言实体的标记(也称为符号)。标识符可能表示的实体种类包括变量、类型、标签、子程序和包。
Jhotdraw 是一个用于标识符分割的数据集,即在标识符内添加单词之间的空格的任务。
{ "index": 0, "identifier": "abstractconnectorserializeddataversion", "segmentation": "abstract connector serialized data version" }
此配置文件中的所有hashtag分割和标识符分割数据集具有相同的基本字段:hashtag和分割或标识符和分割。
hashtag和分割或标识符和分割之间的唯一区别是空格字符。拼写检查、扩展缩写或将字符更正为大写字母的操作放在其他字段中。
字母数字字符和任何特殊字符序列(如_面、:、~)之间始终有空格。
如果有任何命名实体识别和其他标记分类任务的注释,则在spans字段中给出。
@inproceedings{madani2010recognizing, title={Recognizing words from source code identifiers using speech recognition techniques}, author={Madani, Nioosha and Guerrouj, Latifa and Di Penta, Massimiliano and Gueheneuc, Yann-Gael and Antoniol, Giuliano}, booktitle={2010 14th European Conference on Software Maintenance and Reengineering}, pages={68--77}, year={2010}, organization={IEEE} }
此数据集由 @ruanchaves 在开发 hashformers 库时添加。