数据集:

math_qa

任务:

问答

语言:

en

计算机处理:

monolingual

大小:

10K<n<100K

批注创建人:

crowdsourced

源数据集:

extended|aqua_rat

许可:

apache-2.0
英文

MathQA 数据集卡片

数据集简介

我们介绍了一个大规模的数学问题数据集。

我们使用一种新的表示语言对 AQuA-RAT 数据集进行注释,其中包括完全规范的操作程序。

AQuA-RAT 提供了问题、选项、理由和正确选项。

支持的任务和排行榜

More Information Needed

语言

More Information Needed

数据集结构

数据实例

default
  • 下载的数据集文件大小:7.30 MB
  • 生成的数据集大小:22.96 MB
  • 总磁盘使用量:30.27 MB

"train" 的一个示例如下所示。

{
    "Problem": "a multiple choice test consists of 4 questions , and each question has 5 answer choices . in how many r ways can the test be completed if every question is unanswered ?",
    "Rationale": "\"5 choices for each of the 4 questions , thus total r of 5 * 5 * 5 * 5 = 5 ^ 4 = 625 ways to answer all of them . answer : c .\"",
    "annotated_formula": "power(5, 4)",
    "category": "general",
    "correct": "c",
    "linear_formula": "power(n1,n0)|",
    "options": "a ) 24 , b ) 120 , c ) 625 , d ) 720 , e ) 1024"
}

数据字段

数据字段在所有拆分中相同。

default
  • 问题:一个字符串特征。
  • 解释:一个字符串特征。
  • 选项:一个字符串特征。
  • 正确答案:一个字符串特征。
  • 注释的公式:一个字符串特征。
  • 线性公式:一个字符串特征。
  • 类别:一个字符串特征。

数据拆分

name train validation test
default 29837 4475 2985

数据集创建

策划理由

More Information Needed

源数据

初始数据收集和标准化

More Information Needed

谁是源语言的制作人?

More Information Needed

注释

注释过程

More Information Needed

谁是注释者?

More Information Needed

个人信息和敏感信息

More Information Needed

使用数据时的注意事项

数据的社会影响

More Information Needed

偏见讨论

More Information Needed

其他已知限制

More Information Needed

附加信息

数据集策划者

More Information Needed

许可信息

该数据集在 Apache License, Version 2.0 下许可。

引用信息

@inproceedings{amini-etal-2019-mathqa,
    title = "{M}ath{QA}: Towards Interpretable Math Word Problem Solving with Operation-Based Formalisms",
    author = "Amini, Aida  and
      Gabriel, Saadia  and
      Lin, Shanchuan  and
      Koncel-Kedziorski, Rik  and
      Choi, Yejin  and
      Hajishirzi, Hannaneh",
    booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
    month = jun,
    year = "2019",
    address = "Minneapolis, Minnesota",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N19-1245",
    doi = "10.18653/v1/N19-1245",
    pages = "2357--2367",
}

贡献

感谢 @thomwolf @lewtun @patrickvonplaten 添加此数据集。