数据集:
ruanchaves/loyola
语言:
code计算机处理:
monolingual语言创建人:
machine-generated批注创建人:
expert-generated源数据集:
original许可:
license:unknown在编程语言中,标识符是用于命名语言实体的令牌(也称为符号)。标识符可能表示的实体种类包括变量、类型、标签、子程序和包等。
The Loyola University of Delaware Identifier Splitting Oracle是用于标识符分割的数据集,即在标识符上添加单词之间的空格的任务。
{ "index": 0, "identifier": "::CreateProcess", "segmentation": ":: Create Process", "language": "cpp", "source": "mozilla-source-1.1" }
此配置文件上的所有哈希标记分段和标识符拆分数据集具有相同的基本字段:hashtag和segmentation或identifier和segmentation。
hashtag与segmentation或identifier与segmentation之间的唯一区别是空格字符。拼写检查、扩展缩写或将字符更正为大写的操作存储在其他字段中。
字母数字字符与任何特殊字符序列(如_,:,~)之间始终存在空格。
如果存在用于命名实体识别和其他令牌分类任务的注释,则给出在spans字段中。
@article{hill2014empirical, title={An empirical study of identifier splitting techniques}, author={Hill, Emily and Binkley, David and Lawrie, Dawn and Pollock, Lori and Vijay-Shanker, K}, journal={Empirical Software Engineering}, volume={19}, number={6}, pages={1754--1780}, year={2014}, publisher={Springer} }
此数据集由 @ruanchaves 在开发 hashformers 库时添加。