数据集:

koutch/intro_prog

英文

intro_prog 数据集简介

数据集描述

数据集概述

IntroProg 是收集了来自不同大学的各种初级编程课程作业的学生提交的数据集。目前,该数据集包含来自都柏林市立大学和新加坡大学的提交记录。

Dublin

Dublin 编程数据集是由都柏林大学计算机科学系的学生提交的初级编程作业的数据集。学生在三个学年期间提交了多门编程课程的程序。

Singapore

新加坡数据集包含新加坡国立大学(NUS)授予的一门Python编程入门课程中,361名本科生提交的2442个正确和1783个有错误的程序尝试。

支持的任务和评估指标

"Metadata": 程序综合

类似于 Most Basic Python Programs (mbpp),数据拆分可用来评估代码生成模型。

"Data"

数据配置包括所有提交以及指示这些提交是否通过所需测试的指标。

"repair": 程序优化/修复

每个数据集的"repair"配置是"data"配置的一个子集,其中包含教育者对错误程序修正的注释。此配置可用于程序优化任务。在 Computing Education Research (CER)中,使用自动修复学生程序的方法为学生提供反馈并帮助他们调试代码。

"bug": 错误分类

[即将推出]

语言

这些作业是用Python编写的。

数据集结构

一个配置由一个源数据集dublin或singapore和一个子配置("metadata","data"或"repair")定义:

  • "dublin_metadata"
  • "dublin_data"
  • "dublin_repair"
  • "singapore_metadata"
  • "singapore_data"
  • "singapore_repair"

数据实例

[需要更多信息]

数据字段

[需要更多信息]

一些字段是特定于配置的

  • submission_id: 标识提交的唯一编号
  • user: 标识(匿名)提交解决方案的学生的唯一字符串
  • date: 成绩服务器接收到提交的时间戳
  • func_code: 提交的清理代码
  • func_name: 待实现的函数的名称
  • assignment_id: 待完成的作业的唯一(字符串)标识符
  • academic_year: 学年的开始年份(例如,2015表示2015-2016学年)
  • module: 课程/模块
  • test: 一种可以用来在所提供的测试案例上执行提交解决方案的人为评估样式字符串
  • Description: 函数的预期目标的描述
  • correct: 解决方案是否通过所有测试

数据拆分

Dublin

Du blin 数据集被划分为训练集和验证集。训练集包含在2015-2016学年和2016-2017学年期间编写的作业提交,而测试集包含在2017-2018学年期间编写的程序。

Singapore

新加坡数据集仅包含一个训练集,可以用作对在未见数据集上评估您的反馈方法的性能的测试集(例如,如果您在Dublin数据集上训练您的方法)。

数据集创建

策展原因

[需要更多信息]

原始数据

初始数据收集和标准化

[需要更多信息]

语言的源头是谁?

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据集的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策展人

[需要更多信息]

许可信息

Dublin Singapore

该数据集根据 GNU Lesser General Public License v3.0 许可证发布

引用信息

@inproceedings{azcona2019user2code2vec,
  title={user2code2vec: Embeddings for Profiling Students Based on Distributional Representations of Source Code},
  author={Azcona, David and Arora, Piyush and Hsiao, I-Han and Smeaton, Alan},
  booktitle={Proceedings of the 9th International Learning Analytics & Knowledge Conference (LAK’19)},
  year={2019},
  organization={ACM}
}
@inproceedings{DBLP:conf/edm/CleuziouF21,
  author    = {Guillaume Cleuziou and
               Fr{\'{e}}d{\'{e}}ric Flouvat},
  editor    = {Sharon I{-}Han Hsiao and
               Shaghayegh (Sherry) Sahebi and
               Fran{\c{c}}ois Bouchet and
               Jill{-}J{\^{e}}nn Vie},
  title     = {Learning student program embeddings using abstract execution traces},
  booktitle = {Proceedings of the 14th International Conference on Educational Data
               Mining, {EDM} 2021, virtual, June 29 - July 2, 2021},
  publisher = {International Educational Data Mining Society},
  year      = {2021},
  timestamp = {Wed, 09 Mar 2022 16:47:22 +0100},
  biburl    = {https://dblp.org/rec/conf/edm/CleuziouF21.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

贡献

[需要更多信息]