数据集:
koutch/intro_prog
IntroProg 是收集了来自不同大学的各种初级编程课程作业的学生提交的数据集。目前,该数据集包含来自都柏林市立大学和新加坡大学的提交记录。
DublinDublin 编程数据集是由都柏林大学计算机科学系的学生提交的初级编程作业的数据集。学生在三个学年期间提交了多门编程课程的程序。
Singapore新加坡数据集包含新加坡国立大学(NUS)授予的一门Python编程入门课程中,361名本科生提交的2442个正确和1783个有错误的程序尝试。
类似于 Most Basic Python Programs (mbpp),数据拆分可用来评估代码生成模型。
"Data"数据配置包括所有提交以及指示这些提交是否通过所需测试的指标。
"repair": 程序优化/修复每个数据集的"repair"配置是"data"配置的一个子集,其中包含教育者对错误程序修正的注释。此配置可用于程序优化任务。在 Computing Education Research (CER)中,使用自动修复学生程序的方法为学生提供反馈并帮助他们调试代码。
"bug": 错误分类[即将推出]
这些作业是用Python编写的。
一个配置由一个源数据集dublin或singapore和一个子配置("metadata","data"或"repair")定义:
[需要更多信息]
[需要更多信息]
一些字段是特定于配置的
Du blin 数据集被划分为训练集和验证集。训练集包含在2015-2016学年和2016-2017学年期间编写的作业提交,而测试集包含在2017-2018学年期间编写的程序。
Singapore新加坡数据集仅包含一个训练集,可以用作对在未见数据集上评估您的反馈方法的性能的测试集(例如,如果您在Dublin数据集上训练您的方法)。
[需要更多信息]
[需要更多信息]
语言的源头是谁?[需要更多信息]
[需要更多信息]
注释者是谁?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
该数据集根据 GNU Lesser General Public License v3.0 许可证发布
@inproceedings{azcona2019user2code2vec, title={user2code2vec: Embeddings for Profiling Students Based on Distributional Representations of Source Code}, author={Azcona, David and Arora, Piyush and Hsiao, I-Han and Smeaton, Alan}, booktitle={Proceedings of the 9th International Learning Analytics & Knowledge Conference (LAK’19)}, year={2019}, organization={ACM} } @inproceedings{DBLP:conf/edm/CleuziouF21, author = {Guillaume Cleuziou and Fr{\'{e}}d{\'{e}}ric Flouvat}, editor = {Sharon I{-}Han Hsiao and Shaghayegh (Sherry) Sahebi and Fran{\c{c}}ois Bouchet and Jill{-}J{\^{e}}nn Vie}, title = {Learning student program embeddings using abstract execution traces}, booktitle = {Proceedings of the 14th International Conference on Educational Data Mining, {EDM} 2021, virtual, June 29 - July 2, 2021}, publisher = {International Educational Data Mining Society}, year = {2021}, timestamp = {Wed, 09 Mar 2022 16:47:22 +0100}, biburl = {https://dblp.org/rec/conf/edm/CleuziouF21.bib}, bibsource = {dblp computer science bibliography, https://dblp.org} }
[需要更多信息]