数据集:

aqua_rat

任务:

问答

语言:

en

计算机处理:

monolingual

大小:

10K<n<100K

批注创建人:

crowdsourced

源数据集:

original

预印本库:

arxiv:1705.04146

许可:

apache-2.0
英文

AQUA-RAT 数据集卡片

数据集概述

一个大规模的数据集,包含大约100,000个代数文字问题。针对每个问题,使用自然语言逐步解释问题的解决方法。这些数据用于训练一个程序生成模型,该模型学习生成解释,并在生成解决问题的程序时进行训练。

支持的任务和榜单

语言

en

数据集结构

数据实例

{
"question": "A grocery sells a bag of ice for $1.25, and makes 20% profit. If it sells 500 bags of ice, how much total profit does it make?",
"options": ["A)125", "B)150", "C)225", "D)250", "E)275"],
"rationale": "Profit per bag = 1.25 * 0.20 = 0.25\nTotal profit = 500 * 0.25 = 125\nAnswer is A.",
"correct": "A"
}

数据字段

  • 问题:(str)需要解决的问题的自然语言描述
  • 选项:(list(str))5个可能的选项(A、B、C、D和E),其中一个是正确的
  • 解释:(str)问题的解决方法的自然语言描述
  • 正确选项:(str)正确的选项

数据划分

Train Valid Test
Examples 97467 254 254

数据集创建

策划理由

[需要更多信息]

来源数据

初始数据收集和标准化

[需要更多信息]

谁是源语言的生产者?

[需要更多信息]

注释

注释过程

[需要更多信息]

谁是注释人员?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的考虑事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据策划者

[需要更多信息]

许可信息

版权所有 2017 Google Inc.

根据 Apache License, Version 2.0("许可证")许可;除非符合许可证的规定, 否则不得使用此文件。您可以在以下位置获取许可证的副本:

http://www.apache.org/licenses/LICENSE-2.0

除非适用的法律要求或书面同意,根据许可证分发的软件是基于"按原样"的基础分发的,没有任何明示或暗示的担保或条件。有关特定语言下的许可证,请参阅许可证。

引用信息

@article{ling2017program,
  title={Program induction by rationale generation: Learning to solve and explain algebraic word problems},
  author={Ling, Wang and Yogatama, Dani and Dyer, Chris and Blunsom, Phil},
  journal={ACL},
  year={2017}
}

贡献

感谢 @arkhalid 添加了此数据集。