数据集:
ceval/ceval-exam
C-Eval是一个包含52个不同学科和四个难度级别的综合中文评估套件。它包含13948个多选题。请访问我们的 website 和 GitHub ,或者查看我们的 paper 获取更多详细信息。
每个学科包含三个部分:dev、val和test。每个学科的dev集合包含五个例子,并附带了few-shot评估的解释。val集合用于超参数调整。test集合用于模型评估。测试集不会公开标签,用户需要提交结果以自动获取测试准确性。 How to submit?
from datasets import load_dataset dataset=load_dataset(r"ceval/ceval-exam",name="computer_network") print(dataset['val'][0]) # {'id': 0, 'question': '使用位填充方法,以01111110为位首flag,数据为011011111111111111110010,求问传送时要添加几个0____', 'A': '1', 'B': '2', 'C': '3', 'D': '4', 'answer': 'C', 'explanation': ''}
关于加载和使用数据的更多详细信息,请参阅我们的 github page 。
如果您使用我们的数据集,请引用我们的论文。
@article{huang2023ceval, title={C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models}, author={Huang, Yuzhen and Bai, Yuzhuo and Zhu, Zhihao and Zhang, Junlei and Zhang, Jinghan and Su, Tangjun and Liu, Junteng and Lv, Chuancheng and Zhang, Yikai and Lei, Jiayi and Fu, Yao and Sun, Maosong and He, Junxian}, journal={arXiv preprint arXiv:2305.08322}, year={2023} }