数据集:

juletxara/mgsm_mt

任务:

文生文

语言:

en

计算机处理:

monolingual

大小:

1K<n<10K

批注创建人:

found

源数据集:

extended|gsm8k
英文

MGSM MT 数据集卡片

数据集摘要

Multilingual Grade School Math Benchmark(MGSM)是一套小学数学问题基准,提出于 Language models are multilingual chain-of-thought reasoners 这篇论文中。该数据集是MGSM的机器翻译版本,翻译成了每种语言的英文。

这10种语言是同样的250个问题从 GSM8K 翻译成的。这10种语言分别是:

  • 西班牙语
  • 法语
  • 德语
  • 俄语
  • 中文
  • 日语
  • 泰语
  • 斯瓦希里语
  • 孟加拉语
  • 泰卢固语

GSM8K(Grade School Math 8K)是一个包含8500个高质量、语言多样化的小学数学问题的数据集。该数据集的创建是为了支持解答需要多步推理的基本数学问题的任务。

您可以在每种语言(以及英语)的.tsv文件中找到对应的输入和目标。我们还在exemplars.py中包含了一些用于指导翻译的示例。

支持的任务和排行榜

[需要更多信息]

语言

这10种语言是同样的250个问题从 GSM8K 翻译成的。这10种语言分别是:

  • 西班牙语
  • 法语
  • 德语
  • 俄语
  • 中文
  • 日语
  • 泰语
  • 斯瓦希里语
  • 孟加拉语
  • 泰卢固语

该数据集是MGSM的机器翻译版本,将每种语言翻译成了英文。

数据集结构

数据实例

训练集中的每个实例包含:

  • 适用于小学水平的数学问题的字符串
  • 相应答案的字符串,包含推理的多个步骤和最终的数值解
  • 问题的数值解
  • 问题的方程解
{'question': 'Question: Roger has 5 tennis balls. He buys 2 more cans of tennis balls. Each can has 3 tennis balls. How many tennis balls does he have now?',
 'answer': 'Step-by-Step Answer: Roger started with 5 balls. 2 cans of 3 tennis balls each is 6 tennis balls. 5 + 6 = 11. The answer is 11.',
 'answer_number': 11,
 'equation_solution': '5 + 6 = 11.'}

测试集中的每个实例包含:

  • 适用于小学水平的数学问题的字符串
  • 问题的数值解
{'question': "Janet’s ducks lay 16 eggs per day. She eats three for breakfast every morning and bakes muffins for her friends every day with four. She sells the remainder at the farmers' market daily for $2 per fresh duck egg. How much in dollars does she make every day at the farmers' market?",
 'answer': None,
 'answer_number': 18,
 'equation_solution': None}

数据字段

训练集和测试集的数据字段相同。

  • question: 小学数学问题的字符串。

  • answer: 问题的完整解答字符串。其中包含推理的多个步骤、计算器注释和最终的数值解。

  • answer_number: 问题的数值解。

  • equation_solution: 问题的方程解。

数据拆分

  • 训练集包含8个通过人工翻译每种语言的few-shot示例。
  • 测试集包含将GSM8K的同样的250个问题翻译成10种语言的人工注释版本。
name train test
en 8 250
es 8 250
fr 8 250
de 8 250
ru 8 250
zh 8 250
ja 8 250
th 8 250
sw 8 250
bn 8 250
te 8 250

数据集创建

策划理由

[需要更多信息]

源数据

数据收集和规范化

根据论文:

我们最初通过在Upwork(upwork.com)上雇佣自由承包商收集了一套起始的一千个问题和自然语言解答。然后,我们与Surge AI(surgehq.ai)合作,这是一个NLP数据标注平台,以扩大我们的数据收集规模。在收集到完整数据集后,我们要求工作者重新解答所有问题,不允许他们重新解答他们最初撰写的问题。我们检查他们的最终答案是否与原始解答一致,任何产生分歧的问题都会被修复或丢弃。然后,我们对一小部分问题进行了另一轮的一致性检查,发现1.7%的问题仍然在承包商之间产生分歧。我们估计这些问题中可能有占据一个断言错误或模糊性的问题。可能还有更大比例的问题存在细微错误。

源语言制作者是谁?

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者是谁?

Surge AI(surgehq.ai)

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据集的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集创建者

[需要更多信息]

版权信息

GSM8K数据集遵循 MIT License

引用信息

@article{cobbe2021gsm8k,
    title={Training Verifiers to Solve Math Word Problems},
    author={Cobbe, Karl and Kosaraju, Vineet and Bavarian, Mohammad and Chen, Mark and Jun, Heewoo and Kaiser, Lukasz and Plappert, Matthias and Tworek, Jerry and Hilton, Jacob and Nakano, Reiichiro and Hesse, Christopher and Schulman, John},
    journal={arXiv preprint arXiv:2110.14168},
    year={2021}
}
@misc{shi2022language,
    title={Language Models are Multilingual Chain-of-Thought Reasoners}, 
    author={Freda Shi and Mirac Suzgun and Markus Freitag and Xuezhi Wang and Suraj Srivats and Soroush Vosoughi and Hyung Won Chung and Yi Tay and Sebastian Ruder and Denny Zhou and Dipanjan Das and Jason Wei},
    year={2022},
    eprint={2210.03057},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

贡献者

感谢 @juletx 添加了该数据集。