数据集:
gsm8k
任务:
文生文语言:
en计算机处理:
monolingual大小:
1K<n<10K语言创建人:
crowdsourced批注创建人:
crowdsourced源数据集:
original预印本库:
arxiv:2110.14168许可:
mitGSM8K(Grade School Math 8K)是一个包含8.5K个高质量、语言多样的小学数学问题数据集。该数据集的创建旨在支持需要多步推理的基本数学问题的问答任务。
[需要更多信息]
数据集中的文本为英文。相关的BCP-47代码为en。
对于主要配置,每个实例包含一个小学级数学问题的字符串以及相应答案的字符串,其中包含多步推理和计算器注释(解释详见 here )。
{ 'question': 'Natalia sold clips to 48 of her friends in April, and then she sold half as many clips in May. How many clips did Natalia sell altogether in April and May?', 'answer': 'Natalia sold 48/2 = <<48/2=24>>24 clips in May.\nNatalia sold 48+24 = <<48+24=72>>72 clips altogether in April and May.\n#### 72', }
对于socratic配置,每个实例包含小学级数学问题的字符串,相应答案的字符串,包含多步推理和计算器注释(解释详见 here )以及苏格拉底式的子问题字符串。
{ 'question': 'Natalia sold clips to 48 of her friends in April, and then she sold half as many clips in May. How many clips did Natalia sell altogether in April and May?', 'answer': 'How many clips did Natalia sell in May? ** Natalia sold 48/2 = <<48/2=24>>24 clips in May.\nHow many clips did Natalia sell altogether in April and May? ** Natalia sold 48+24 = <<48+24=72>>72 clips altogether in April and May.\n#### 72', }
主要配置和socratic配置以及它们各自的拆分具有相同的数据字段。
问题:小学数学问题的字符串。
答案:问题的完整解答字符串。它包含了多步推理、计算器注释和最终的数值解。
name | train | validation |
---|---|---|
main | 7473 | 1319 |
socratic | 7473 | 1319 |
[需要更多信息]
来自论文:
我们最初通过在Upwork(upwork.com)上雇佣自由承包商收集了一千个问题和自然语言解决方案。然后,我们与Surge AI(surgehq.ai)合作,一个NLP数据标注平台,扩大了我们的数据收集。在收集完整数据集之后,我们要求工人重新解决所有问题,原始问题的作者不得重新解决问题。我们检查他们的最终答案是否与原始解决方案一致,如果有任何产生分歧的问题,则修复或丢弃。然后,我们对一小部分问题进行了另一轮一致性检查,发现1.7%的问题在承包商之间仍然产生分歧。我们估计这是包含错误或模糊性的问题部分的比例。可能还有更大比例的问题中包含了细微的错误。
请问源语言制片人是谁?[需要更多信息]
[需要更多信息]
注释者是谁?Surge AI(surgehq.ai)
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
GSM8K数据集的许可证为 MIT License 。
@article{cobbe2021gsm8k, title={Training Verifiers to Solve Math Word Problems}, author={Cobbe, Karl and Kosaraju, Vineet and Bavarian, Mohammad and Chen, Mark and Jun, Heewoo and Kaiser, Lukasz and Plappert, Matthias and Tworek, Jerry and Hilton, Jacob and Nakano, Reiichiro and Hesse, Christopher and Schulman, John}, journal={arXiv preprint arXiv:2110.14168}, year={2021} }
感谢 @jon-tow 添加此数据集。