数据集:

competition_math

任务:

文生文

语言:

en

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

expert-generated

批注创建人:

expert-generated

源数据集:

original

预印本库:

arxiv:2103.03874

许可:

mit
英文

数据集卡片:Heuristics(MATH)数学能力测试数据集

数据集摘要

Heuristics(MATH)数据集包含来自数学竞赛的问题,包括AMC 10、AMC 12、AIME等。MATH中的每个问题都有一个完整的逐步解决方案,可以用来教导模型生成答案的推导和解释。

支持的任务和排行榜

[需要更多信息]

语言

[需要更多信息]

数据集结构

数据实例

数据实例由一个竞赛数学问题和以LaTeX和自然语言编写的逐步解决方案组成。逐步解决方案中包含用LaTeX的\boxed标记括起来的最终答案。

数据集中的一个示例是:

{'problem': 'A board game spinner is divided into three parts labeled $A$, $B$  and $C$. The probability of the spinner landing on $A$ is $\\frac{1}{3}$ and the probability of the spinner landing on $B$ is $\\frac{5}{12}$.  What is the probability of the spinner landing on $C$? Express your answer as a common fraction.',
 'level': 'Level 1',
 'type': 'Counting & Probability',
 'solution': 'The spinner is guaranteed to land on exactly one of the three regions, so we know that the sum of the probabilities of it landing in each region will be 1. If we let the probability of it landing in region $C$ be $x$, we then have the equation $1 = \\frac{5}{12}+\\frac{1}{3}+x$, from which we have $x=\\boxed{\\frac{1}{4}}$.'}

数据字段

  • 问题:竞赛数学问题。
  • 解决方案:逐步解决方案。
  • 难度:问题的难度级别从“Level 1”到“Level 5”,其中被认为对人类最容易的问题被分配到“Level 1”,而最难的问题被分配到“Level 5”。
  • 类型:问题的学科领域:代数,组合与概率,几何,中级代数,数论,预代数和预微积分。

数据拆分

  • 训练集:7,500个示例
  • 测试集:5,000个示例

数据集创建

策划理由

[需要更多信息]

源数据

初始数据收集和规范化

[需要更多信息]

谁是源语言制作者?

[需要更多信息]

注释

注释过程

[需要更多信息]

谁是注释者?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

讨论偏差

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

[需要更多信息]

许可信息

https://github.com/hendrycks/math/blob/main/LICENSE

引用信息

@article{hendrycksmath2021,
    title={Measuring Mathematical Problem Solving With the MATH Dataset},
    author={Dan Hendrycks
    and Collin Burns
    and Saurav Kadavath
    and Akul Arora
    and Steven Basart
    and Eric Tang
    and Dawn Song
    and Jacob Steinhardt},
    journal={arXiv preprint arXiv:2103.03874},
    year={2021}
}

贡献者

感谢 @hacobe 添加了该数据集。