英文

数据集卡片创建指南

数据集摘要

学会解释:基于思维链的多模态推理用于科学问题回答

支持的任务和排行榜

多模式多项选择题

语言

英语

数据集结构

数据实例

浏览更多样本 here .

{'image': Image,
 'question': 'Which of these states is farthest north?',
 'choices': ['West Virginia', 'Louisiana', 'Arizona', 'Oklahoma'],
 'answer': 0,
 'hint': '',
 'task': 'closed choice',
 'grade': 'grade2',
 'subject': 'social science',
 'topic': 'geography',
 'category': 'Geography',
 'skill': 'Read a map: cardinal directions',
 'lecture': 'Maps have four cardinal directions, or main directions. Those directions are north, south, east, and west.\nA compass rose is a set of arrows that point to the cardinal directions. A compass rose usually shows only the first letter of each cardinal direction.\nThe north arrow points to the North Pole. On most maps, north is at the top of the map.',
 'solution': 'To find the answer, look at the compass rose. Look at which way the north arrow is pointing. West Virginia is farthest north.'}

某些记录可能缺少图片、讲座或解决方案。

数据字段

  • image : 上下文图片
  • question : 与讲座相关的提示信息
  • choices : 问题的多项选择答案,其中1个是正确答案
  • answer : 对应于正确答案的选项索引
  • hint : 帮助回答问题的提示
  • task : 任务描述
  • grade : K-12年级水平
  • subject : 高级领域
  • topic : 自然科学、社会科学或语言科学
  • category : 主题的子类别
  • skill : 所需任务的描述
  • lecture : 与问题相关的讲座
  • solution : 如何解决问题的指导说明

注意,描述可以用 Datasets Tagging app 的Show Markdown Data Fields输出进行初始化,然后只需完善生成的描述。

数据拆分

  • 名称: 训练集
    • num_bytes: 16416902
    • num_examples: 12726
  • 名称: 验证集
    • num_bytes: 5404896
    • num_examples: 4241
  • 名称: 测试集
    • num_bytes: 5441676
    • num_examples: 4241

数据集创建

策展理由

在回答问题时,人类利用不同形态的可用信息来综合形成一条连贯而完整的思维链(CoT)。在像大规模语言模型这样的深度学习模型中,这个过程通常是一个黑盒子。最近,科学问题基准已被用于诊断AI系统的多跳推理能力和可解释性。然而,现有数据集未能为答案提供注释,或者仅限于纯文本形式,规模小,领域多样性有限。为此,我们提出了科学问题回答(ScienceQA)数据集。

源数据

ScienceQA是由小学和高中科学课程收集而来的。

初始数据收集和规范化

参见以下内容

资源语言制片人是谁?

参见以下内容

注释

ScienceQA数据集中的问题来自IXL Learning管理的开放资源。IXL Learning是一个在线学习平台,由K-12教育领域的专家策划。该数据集包括与加利福尼亚州共同核心内容标准(California Common Core Content Standards)相一致的问题。为了构建ScienceQA,我们下载了原始的科学问题,然后根据启发式规则从中提取了各个部分(例如问题、提示、图片、选项、答案、讲座和解决方案)。我们手动删除了无效的问题,例如只有一个选项的问题、包含错误数据的问题以及重复的问题,以遵守公平使用和转变法律的使用规定。如果有多个适用的正确答案,我们只保留其中一个。此外,我们打乱了每个问题的选项顺序,以确保选择项不遵循任何特定模式。为了方便使用,我们还使用半自动脚本重新格式化了讲座和解决方案。因此,文字中的特殊结构,例如表格和列表,与简单的文本段落容易区分。与ImageNet、ReClor和PMR数据集类似,ScienceQA仅可用于非商业研究目的,版权归原作者所有。为确保数据质量,我们开发了一个数据探索工具,以审核收集的数据集中的示例,不正确的注释还经过专家的手动修订。该工具可在 https://scienceqa.github.io/explore.html 中访问。

注释过程

参见上述内容

注释者是谁?

参见上述内容

个人和敏感信息

More Information Needed

使用数据的注意事项

数据的社会影响

More Information Needed

偏见讨论

More Information Needed

其他已知限制

More Information Needed

附加信息

数据集策展人

  • Pan Lu1,3
  • Swaroop Mishra2,3
  • Tony Xia1
  • Liang Qiu1
  • Kai-Wei Chang1
  • Song-Chun Zhu1
  • Oyvind Tafjord3
  • Peter Clark3
  • Ashwin Kalyan3

来自于:

  • 加利福尼亚大学洛杉矶分校
  • 亚利桑那州立大学
  • Allen人工智能研究所
  • 许可信息

    Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)

    引用信息

    为数据集提供按照 BibTex 的格式化参考。例如:

    @inproceedings{lu2022learn,
        title={Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering},
        author={Lu, Pan and Mishra, Swaroop and Xia, Tony and Qiu, Liang and Chang, Kai-Wei and Zhu, Song-Chun and Tafjord, Oyvind and Clark, Peter and Ashwin Kalyan},
        booktitle={The 36th Conference on Neural Information Processing Systems (NeurIPS)},
        year={2022}
    }
    

    贡献者

    感谢 Derek Thomas @datavistics 添加了该数据集。