数据集:
ruanchaves/bt11
语言:
code计算机处理:
monolingual语言创建人:
machine-generated批注创建人:
expert-generated源数据集:
original许可:
license:unknown在编程语言中,标识符是指代语言实体的标记(也称为符号)。标识符可能表示的实体包括变量、类型、标签、子程序和包等。
BT11是用于标识符分词的数据集,即在标识符中加入空格以分隔单词。
{ "index": 20170, "identifier": "currentLineHighlight", "segmentation": "current Line Highlight" }
此概要文件中的所有主题标记分词和标识符分割数据集都具有相同的基本字段:hashtag和segmentation或identifier和segmentation。
hashtag和segmentation或identifier和segmentation之间唯一的区别是空格字符。拼写检查、扩展缩写或修正字符为大写字母都放在其他字段中。
字母数字字符和任何特殊字符序列之间始终有空格(例如_、:、~等)。
如果有任何命名实体识别和其他标记分类任务的注释,则给出在spans字段中。
@inproceedings{butler2011improving, title={Improving the tokenisation of identifier names}, author={Butler, Simon and Wermelinger, Michel and Yu, Yijun and Sharp, Helen}, booktitle={European Conference on Object-Oriented Programming}, pages={130--154}, year={2011}, organization={Springer} }
该数据集是由 @ruanchaves 在开发 hashformers 库的过程中添加的。