数据集:

juletxara/mgsm

英文

MGSM 数据集卡片

数据集概述

MGSM(Multilingual Grade School Math Benchmark)是一份小学数学问题基准数据集,该数据集最初在论文 Language models are multilingual chain-of-thought reasoners 中提出。

同一份来自 GSM8K 的 250个问题通过人工注释者翻译成了10种语言。这10种语言包括:

  • 西班牙语
  • 法语
  • 德语
  • 俄语
  • 中文
  • 日语
  • 泰语
  • 斯瓦希里语
  • 孟加拉语
  • 泰卢固语

GSM8K(Grade School Math 8K)是一个包含8.5K个高质量、语言多样化的小学数学词问题数据集。该数据集的创建旨在支持需要多步推理的基本数学问题的问答任务。

您可以在.tsv文件中找到十种语言(以及英文)的输入和目标。我们还在 exemplars.py 中包含了少样本示例,这些示例也都经过人工翻译。

支持的任务和排行榜

[需要更多信息]

语言

同一份来自 GSM8K 的 250个问题通过人工注释者翻译成了10种语言。这10种语言包括:

  • 西班牙语
  • 法语
  • 德语
  • 俄语
  • 中文
  • 日语
  • 泰语
  • 斯瓦希里语
  • 孟加拉语
  • 泰卢固语

数据集结构

数据实例

训练集中的每个实例包含:

  • 数学问题的字符串
  • 相应的包含思路步骤的答案字符串
  • 问题的数值解
  • 问题的等式解
{'question': 'Question: Roger has 5 tennis balls. He buys 2 more cans of tennis balls. Each can has 3 tennis balls. How many tennis balls does he have now?',
 'answer': 'Step-by-Step Answer: Roger started with 5 balls. 2 cans of 3 tennis balls each is 6 tennis balls. 5 + 6 = 11. The answer is 11.',
 'answer_number': 11,
 'equation_solution': '5 + 6 = 11.'}

测试集中的每个实例包含:

  • 数学问题的字符串
  • 问题的数值解
{'question': "Janet’s ducks lay 16 eggs per day. She eats three for breakfast every morning and bakes muffins for her friends every day with four. She sells the remainder at the farmers' market daily for $2 per fresh duck egg. How much in dollars does she make every day at the farmers' market?",
 'answer': None,
 'answer_number': 18,
 'equation_solution': None}

数据字段

数据字段在训练集和测试集中是相同的。

  • 问题:小学数学问题的字符串。

  • 答案:问题的完整解答字符串。它包含了带有计算器注释的多步推理过程和最终的数值解。

  • 答案数值:问题的数值解。

  • 等式解:问题的等式解。

数据拆分

  • 训练集包括每种语言手动翻译的8个少样本示例。
  • 测试集包括同一份来自GSM8K的250个问题,这些问题通过人工注释者翻译成了10种语言。
name train test
en 8 250
es 8 250
fr 8 250
de 8 250
ru 8 250
zh 8 250
ja 8 250
th 8 250
sw 8 250
bn 8 250
te 8 250

数据集创建

策划理由

[需要更多信息]

数据源

初始数据收集和规范化

来源论文中提到:

我们最初在Upwork(upwork.com)上雇佣自由承包商来收集了一千个问题和自然语言解答。然后我们与Surge AI(surgehq.ai)合作,这是一个NLP数据标注平台,来扩大数据收集。在收集完整数据集后,我们要求工人们重新解决所有问题,不让他们重新解答他们最初写的问题。我们检查他们的最终答案是否与原始解答一致,任何产生分歧的问题都会被修复或丢弃。然后我们对一小部分问题进行了另一轮的一致性检查,发现在所有承包商中仍有1.7%的问题产生分歧。我们估计这个比例是由包含错误或不明确性的问题所导致的。可能还有更大比例的问题包含了细微的错误。

资源语言制作者是谁?

[需要更多信息]

注释

注释过程

[需要更多信息]

注释人员是谁?

Surge AI(surgehq.ai)

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

[需要更多信息]

许可信息

GSM8K数据集的许可为 MIT License

引用信息

@article{cobbe2021gsm8k,
    title={Training Verifiers to Solve Math Word Problems},
    author={Cobbe, Karl and Kosaraju, Vineet and Bavarian, Mohammad and Chen, Mark and Jun, Heewoo and Kaiser, Lukasz and Plappert, Matthias and Tworek, Jerry and Hilton, Jacob and Nakano, Reiichiro and Hesse, Christopher and Schulman, John},
    journal={arXiv preprint arXiv:2110.14168},
    year={2021}
}
@misc{shi2022language,
    title={Language Models are Multilingual Chain-of-Thought Reasoners}, 
    author={Freda Shi and Mirac Suzgun and Markus Freitag and Xuezhi Wang and Suraj Srivats and Soroush Vosoughi and Hyung Won Chung and Yi Tay and Sebastian Ruder and Denny Zhou and Dipanjan Das and Jason Wei},
    year={2022},
    eprint={2210.03057},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

贡献者

感谢 @juletx 添加了该数据集。