数据集:

aqua_rat

任务:

问答

子任务:

multiple-choice-qa

语言:

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

crowdsourced expert-generated

批注创建人:

crowdsourced

源数据集:

original

预印本库:

arxiv:1705.04146

许可:

apache-2.0

数据集介绍文件清单

英文

AQUA-RAT 数据集卡片

数据集概述

一个大规模的数据集，包含大约100,000个代数文字问题。针对每个问题，使用自然语言逐步解释问题的解决方法。这些数据用于训练一个程序生成模型，该模型学习生成解释，并在生成解决问题的程序时进行训练。

支持的任务和榜单

语言

数据集结构

数据实例

{
"question": "A grocery sells a bag of ice for $1.25, and makes 20% profit. If it sells 500 bags of ice, how much total profit does it make?",
"options": ["A)125", "B)150", "C)225", "D)250", "E)275"],
"rationale": "Profit per bag = 1.25 * 0.20 = 0.25\nTotal profit = 500 * 0.25 = 125\nAnswer is A.",
"correct": "A"
}

数据字段

问题：（str）需要解决的问题的自然语言描述
选项：（list(str)）5个可能的选项（A、B、C、D和E），其中一个是正确的
解释：（str）问题的解决方法的自然语言描述
正确选项：（str）正确的选项

数据划分

Train	Valid	Test
Examples	97467	254	254

数据集创建

策划理由

[需要更多信息]

来源数据

初始数据收集和标准化

[需要更多信息]

谁是源语言的生产者？

[需要更多信息]

注释

注释过程

[需要更多信息]

谁是注释人员？

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的考虑事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据策划者

[需要更多信息]

许可信息

根据 Apache License, Version 2.0（"许可证"）许可；除非符合许可证的规定，否则不得使用此文件。您可以在以下位置获取许可证的副本：

http://www.apache.org/licenses/LICENSE-2.0

除非适用的法律要求或书面同意，根据许可证分发的软件是基于"按原样"的基础分发的，没有任何明示或暗示的担保或条件。有关特定语言下的许可证，请参阅许可证。

引用信息

@article{ling2017program,
  title={Program induction by rationale generation: Learning to solve and explain algebraic word problems},
  author={Ling, Wang and Yogatama, Dani and Dyer, Chris and Blunsom, Phil},
  journal={ACL},
  year={2017}
}

贡献

感谢 @arkhalid 添加了此数据集。

作者:

佚名

数据集大小:

16.3 KB