韩国语言处理领域正在经历兴趣激增,这一点可以通过Polyglot-Ko等开源模型以及HyperClova等专有模型的推出来证明。然而,在更大更优秀的语言模型的发展加速的同时,评估方法并没有同步跟上。为了弥补这一差距,我们HAE-RAE致力于创建专门的基准,对这些模型进行严格的评估。
CSAT-QA是一个包含936个多选题的全面集合,这些题目是由韩国高考(CSAT)手动收集而成的,高考是韩国大学入学考试。CSAT-QA分为两个子集:一个完整版本包含所有936个问题,一个较小的专业版本用于针对性评估。
较小的子集进一步分为六个不同的类别:写作(WR)、语法(GR)、阅读理解:科学(RCS)、阅读理解:社会科学(RCSS)、阅读理解:人文科学(RCH)和文学(LI)。此外,较小的子集还包括韩国学生的准确率记录,提供了一个有价值的真实世界性能基准。
有关CSAT-QA的详细创建说明,请查看github上的 accompanying blog post ,有关评估,请查看 LM-Eval-Harness 。
Models | GR | LI | RCH | RCS | RCSS | WR | Average |
---|---|---|---|---|---|---|---|
polyglot-ko-12.8B | 16.0 | 10.81 | 8.57 | 32.43 | 14.29 | 0.00 | 13.68 |
gpt-3.5-wo-token | 16.0 | 32.43 | 42.86 | 18.92 | 35.71 | 0.00 | 24.32 |
gpt-3.5-w-token | 16.0 | 35.14 | 42.86 | 18.92 | 35.71 | 9.09 | 26.29 |
gpt-4-wo-token | 40.0 | 54.05 | 68.57 | 59.46 | 69.05 | 36.36 | 54.58 |
gpt-4-w-token | 36.0 | 56.76 | 68.57 | 59.46 | 69.05 | 36.36 | 54.37 |
Human Performance | 45.41 | 54.38 | 48.7 | 39.93 | 44.54 | 54.0 | 47.83 |
CSAT-QA包括两个子集。可以使用以下代码下载包含936个问题的完整版本:
from datasets import load_dataset dataset = load_dataset("EleutherAI/CSAT-QA", "full")
可使用以下代码下载更精简的版本,其中包括人类准确性数据:
from datasets import load_dataset import pandas as pd dataset = load_dataset("EleutherAI/CSAT-QA", "GR") # Choose from either WR, GR, LI, RCH, RCS, RCSS,
要使用EleutherAI的LM-Eval-Harness评估您的模型,请按照以下步骤进行。
git clone https://github.com/EleutherAI/lm-evaluation-harness cd lm-evaluation-harness pip install -e .
pip install -e ".[multilingual]"
python main.py \ --model hf-causal \ --model_args pretrained=EleutherAI/polyglot-ko-1.3b \ --tasks csatqa_wr,csatqa_gr,csatqa_rcs,csatqa_rcss,csatqa_rch,csatqa_li \ --device cuda:0
版权属于韩国课程评价研究所(한국교육과정평가원),仅可用于研究目的。