数据集:
code_x_glue_tc_text_to_code
任务:
翻译计算机处理:
other-programming-languages大小:
100K<n<1M语言创建人:
found批注创建人:
found源数据集:
original其他:
text-to-code许可:
c-udaCodeXGLUE文本到代码数据集,可在 https://github.com/microsoft/CodeXGLUE/tree/main/Text-Code/text-to-code 处获得。
我们使用的数据集是从微软文档中爬取和过滤而来的,其文档位于 https://github.com/MicrosoftDocs/ 处。
“train”示例如下所示。
{ "code": "boolean function ( ) { return isParsed ; }", "id": 0, "nl": "check if details are parsed . concode_field_sep Container parent concode_elem_sep boolean isParsed concode_elem_sep long offset concode_elem_sep long contentStartPosition concode_elem_sep ByteBuffer deadBytes concode_elem_sep boolean isRead concode_elem_sep long memMapSize concode_elem_sep Logger LOG concode_elem_sep byte[] userType concode_elem_sep String type concode_elem_sep ByteBuffer content concode_elem_sep FileChannel fileChannel concode_field_sep Container getParent concode_elem_sep byte[] getUserType concode_elem_sep void readContent concode_elem_sep long getOffset concode_elem_sep long getContentSize concode_elem_sep void getContent concode_elem_sep void setDeadBytes concode_elem_sep void parse concode_elem_sep void getHeader concode_elem_sep long getSize concode_elem_sep void parseDetails concode_elem_sep String getType concode_elem_sep void _parseDetails concode_elem_sep String getPath concode_elem_sep boolean verify concode_elem_sep void setParent concode_elem_sep void getBox concode_elem_sep boolean isSmallBox" }
以下是每个配置文件中的每个数据字段在Go中的说明。数据字段在所有拆分中均相同。
defaultfield name | type | description |
---|---|---|
id | int32 | Index of the sample |
nl | string | The natural language description of the task |
code | string | The programming source code for the task |
name | train | validation | test |
---|---|---|---|
default | 100000 | 2000 | 2000 |
[需要更多信息]
[需要更多信息]
谁是源语言的生产者?[需要更多信息]
[需要更多信息]
谁是注释者?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
https://github.com/microsoft , https://github.com/madlag
数据计算使用协议(C-UDA许可证)。
@article{iyer2018mapping, title={Mapping language to code in programmatic context}, author={Iyer, Srinivasan and Konstas, Ioannis and Cheung, Alvin and Zettlemoyer, Luke}, journal={arXiv preprint arXiv:1808.09588}, year={2018} }
感谢@madlag(部分也感谢@ncoop57)添加了这个数据集。