数据集:

HAERAE-HUB/csatqa

语言:

ko
英文

"CSAT-QA" 数据集卡片

数据集概述

韩国语言处理领域正在经历兴趣激增,这一点可以通过Polyglot-Ko等开源模型以及HyperClova等专有模型的推出来证明。然而,在更大更优秀的语言模型的发展加速的同时,评估方法并没有同步跟上。为了弥补这一差距,我们HAE-RAE致力于创建专门的基准,对这些模型进行严格的评估。

CSAT-QA是一个包含936个多选题的全面集合,这些题目是由韩国高考(CSAT)手动收集而成的,高考是韩国大学入学考试。CSAT-QA分为两个子集:一个完整版本包含所有936个问题,一个较小的专业版本用于针对性评估。

较小的子集进一步分为六个不同的类别:写作(WR)、语法(GR)、阅读理解:科学(RCS)、阅读理解:社会科学(RCSS)、阅读理解:人文科学(RCH)和文学(LI)。此外,较小的子集还包括韩国学生的准确率记录,提供了一个有价值的真实世界性能基准。

有关CSAT-QA的详细创建说明,请查看github上的 accompanying blog post ,有关评估,请查看 LM-Eval-Harness

评估结果

Models GR LI RCH RCS RCSS WR Average
polyglot-ko-12.8B 16.0 10.81 8.57 32.43 14.29 0.00 13.68
gpt-3.5-wo-token 16.0 32.43 42.86 18.92 35.71 0.00 24.32
gpt-3.5-w-token 16.0 35.14 42.86 18.92 35.71 9.09 26.29
gpt-4-wo-token 40.0 54.05 68.57 59.46 69.05 36.36 54.58
gpt-4-w-token 36.0 56.76 68.57 59.46 69.05 36.36 54.37
Human Performance 45.41 54.38 48.7 39.93 44.54 54.0 47.83

如何使用

CSAT-QA包括两个子集。可以使用以下代码下载包含936个问题的完整版本:

from datasets import load_dataset
dataset = load_dataset("EleutherAI/CSAT-QA", "full")

可使用以下代码下载更精简的版本,其中包括人类准确性数据:

from datasets import load_dataset
import pandas as pd

dataset = load_dataset("EleutherAI/CSAT-QA", "GR") # Choose from either WR, GR, LI, RCH, RCS, RCSS, 

使用LM-Eval-Harness进行评估

要使用EleutherAI的LM-Eval-Harness评估您的模型,请按照以下步骤进行。

  • 要从github存储库的主分支安装lm-eval,请运行:
  • git clone https://github.com/EleutherAI/lm-evaluation-harness
    cd lm-evaluation-harness
    pip install -e .
    
  • 要安装其他多语言标记化和文本分割包,您必须使用多语言额外包来安装该软件包:
  • pip install -e ".[multilingual]"
    
  • 运行评估:
  • python main.py \
        --model hf-causal \
        --model_args pretrained=EleutherAI/polyglot-ko-1.3b \
        --tasks csatqa_wr,csatqa_gr,csatqa_rcs,csatqa_rcss,csatqa_rch,csatqa_li \
        --device cuda:0
    

    许可证

    版权属于韩国课程评价研究所(한국교육과정평가원),仅可用于研究目的。

    More Information needed