"CSAT-QA" 数据集卡片

数据集概述

韩国语言处理领域正在经历兴趣激增，这一点可以通过Polyglot-Ko等开源模型以及HyperClova等专有模型的推出来证明。然而，在更大更优秀的语言模型的发展加速的同时，评估方法并没有同步跟上。为了弥补这一差距，我们HAE-RAE致力于创建专门的基准，对这些模型进行严格的评估。

CSAT-QA是一个包含936个多选题的全面集合，这些题目是由韩国高考（CSAT）手动收集而成的，高考是韩国大学入学考试。CSAT-QA分为两个子集：一个完整版本包含所有936个问题，一个较小的专业版本用于针对性评估。

较小的子集进一步分为六个不同的类别：写作（WR）、语法（GR）、阅读理解：科学（RCS）、阅读理解：社会科学（RCSS）、阅读理解：人文科学（RCH）和文学（LI）。此外，较小的子集还包括韩国学生的准确率记录，提供了一个有价值的真实世界性能基准。

有关CSAT-QA的详细创建说明，请查看github上的 accompanying blog post ，有关评估，请查看 LM-Eval-Harness 。

评估结果

Models	GR	LI	RCH	RCS	RCSS	WR	Average
polyglot-ko-12.8B	16.0	10.81	8.57	32.43	14.29	0.00	13.68
gpt-3.5-wo-token	16.0	32.43	42.86	18.92	35.71	0.00	24.32
gpt-3.5-w-token	16.0	35.14	42.86	18.92	35.71	9.09	26.29
gpt-4-wo-token	40.0	54.05	68.57	59.46	69.05	36.36	54.58
gpt-4-w-token	36.0	56.76	68.57	59.46	69.05	36.36	54.37
Human Performance	45.41	54.38	48.7	39.93	44.54	54.0	47.83

如何使用

CSAT-QA包括两个子集。可以使用以下代码下载包含936个问题的完整版本：

from datasets import load_dataset
dataset = load_dataset("EleutherAI/CSAT-QA", "full")

可使用以下代码下载更精简的版本，其中包括人类准确性数据：

from datasets import load_dataset
import pandas as pd

dataset = load_dataset("EleutherAI/CSAT-QA", "GR") # Choose from either WR, GR, LI, RCH, RCS, RCSS,

使用LM-Eval-Harness进行评估

要使用EleutherAI的LM-Eval-Harness评估您的模型，请按照以下步骤进行。

要从github存储库的主分支安装lm-eval，请运行：

git clone https://github.com/EleutherAI/lm-evaluation-harness
cd lm-evaluation-harness
pip install -e .

要安装其他多语言标记化和文本分割包，您必须使用多语言额外包来安装该软件包：

pip install -e ".[multilingual]"

运行评估：

python main.py \
    --model hf-causal \
    --model_args pretrained=EleutherAI/polyglot-ko-1.3b \
    --tasks csatqa_wr,csatqa_gr,csatqa_rcs,csatqa_rcss,csatqa_rch,csatqa_li \
    --device cuda:0

许可证

版权属于韩国课程评价研究所（한국교육과정평가원），仅可用于研究目的。

More Information needed

作者:

HAERAE-HUB

数据集大小:

9.2 MB