数据集:

gsm8k

任务:

文生文

语言:

en

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

crowdsourced

批注创建人:

crowdsourced

源数据集:

original

预印本库:

arxiv:2110.14168

许可:

mit
英文

GSM8K数据集数据卡片

数据集概述

GSM8K(Grade School Math 8K)是一个包含8.5K个高质量、语言多样的小学数学问题数据集。该数据集的创建旨在支持需要多步推理的基本数学问题的问答任务。

支持的任务和排行榜

[需要更多信息]

语言

数据集中的文本为英文。相关的BCP-47代码为en。

数据集结构

数据实例

对于主要配置,每个实例包含一个小学级数学问题的字符串以及相应答案的字符串,其中包含多步推理和计算器注释(解释详见 here )。

{
    'question': 'Natalia sold clips to 48 of her friends in April, and then she sold half as many clips in May. How many clips did Natalia sell altogether in April and May?',
    'answer': 'Natalia sold 48/2 = <<48/2=24>>24 clips in May.\nNatalia sold 48+24 = <<48+24=72>>72 clips altogether in April and May.\n#### 72',
}

对于socratic配置,每个实例包含小学级数学问题的字符串,相应答案的字符串,包含多步推理和计算器注释(解释详见 here )以及苏格拉底式的子问题字符串。

{
    'question': 'Natalia sold clips to 48 of her friends in April, and then she sold half as many clips in May. How many clips did Natalia sell altogether in April and May?',
    'answer': 'How many clips did Natalia sell in May? ** Natalia sold 48/2 = <<48/2=24>>24 clips in May.\nHow many clips did Natalia sell altogether in April and May? ** Natalia sold 48+24 = <<48+24=72>>72 clips altogether in April and May.\n#### 72',
}

数据字段

主要配置和socratic配置以及它们各自的拆分具有相同的数据字段。

  • 问题:小学数学问题的字符串。

  • 答案:问题的完整解答字符串。它包含了多步推理、计算器注释和最终的数值解。

数据拆分

name train validation
main 7473 1319
socratic 7473 1319

数据集创建

策划理由

[需要更多信息]

来源数据

初始数据收集和标准化

来自论文:

我们最初通过在Upwork(upwork.com)上雇佣自由承包商收集了一千个问题和自然语言解决方案。然后,我们与Surge AI(surgehq.ai)合作,一个NLP数据标注平台,扩大了我们的数据收集。在收集完整数据集之后,我们要求工人重新解决所有问题,原始问题的作者不得重新解决问题。我们检查他们的最终答案是否与原始解决方案一致,如果有任何产生分歧的问题,则修复或丢弃。然后,我们对一小部分问题进行了另一轮一致性检查,发现1.7%的问题在承包商之间仍然产生分歧。我们估计这是包含错误或模糊性的问题部分的比例。可能还有更大比例的问题中包含了细微的错误。

请问源语言制片人是谁?

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者是谁?

Surge AI(surgehq.ai)

个人和敏感信息

[需要更多信息]

使用数据时需要考虑的事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

[需要更多信息]

许可信息

GSM8K数据集的许可证为 MIT License

引用信息

@article{cobbe2021gsm8k,
  title={Training Verifiers to Solve Math Word Problems},
  author={Cobbe, Karl and Kosaraju, Vineet and Bavarian, Mohammad and Chen, Mark and Jun, Heewoo and Kaiser, Lukasz and Plappert, Matthias and Tworek, Jerry and Hilton, Jacob and Nakano, Reiichiro and Hesse, Christopher and Schulman, John},
  journal={arXiv preprint arXiv:2110.14168},
  year={2021}
}

贡献

感谢 @jon-tow 添加此数据集。