数据集:
derek-thomas/ScienceQA
学会解释:基于思维链的多模态推理用于科学问题回答
多模式多项选择题
英语
浏览更多样本 here .
{'image': Image, 'question': 'Which of these states is farthest north?', 'choices': ['West Virginia', 'Louisiana', 'Arizona', 'Oklahoma'], 'answer': 0, 'hint': '', 'task': 'closed choice', 'grade': 'grade2', 'subject': 'social science', 'topic': 'geography', 'category': 'Geography', 'skill': 'Read a map: cardinal directions', 'lecture': 'Maps have four cardinal directions, or main directions. Those directions are north, south, east, and west.\nA compass rose is a set of arrows that point to the cardinal directions. A compass rose usually shows only the first letter of each cardinal direction.\nThe north arrow points to the North Pole. On most maps, north is at the top of the map.', 'solution': 'To find the answer, look at the compass rose. Look at which way the north arrow is pointing. West Virginia is farthest north.'}
某些记录可能缺少图片、讲座或解决方案。
注意,描述可以用 Datasets Tagging app 的Show Markdown Data Fields输出进行初始化,然后只需完善生成的描述。
在回答问题时,人类利用不同形态的可用信息来综合形成一条连贯而完整的思维链(CoT)。在像大规模语言模型这样的深度学习模型中,这个过程通常是一个黑盒子。最近,科学问题基准已被用于诊断AI系统的多跳推理能力和可解释性。然而,现有数据集未能为答案提供注释,或者仅限于纯文本形式,规模小,领域多样性有限。为此,我们提出了科学问题回答(ScienceQA)数据集。
ScienceQA是由小学和高中科学课程收集而来的。
初始数据收集和规范化参见以下内容
资源语言制片人是谁?参见以下内容
ScienceQA数据集中的问题来自IXL Learning管理的开放资源。IXL Learning是一个在线学习平台,由K-12教育领域的专家策划。该数据集包括与加利福尼亚州共同核心内容标准(California Common Core Content Standards)相一致的问题。为了构建ScienceQA,我们下载了原始的科学问题,然后根据启发式规则从中提取了各个部分(例如问题、提示、图片、选项、答案、讲座和解决方案)。我们手动删除了无效的问题,例如只有一个选项的问题、包含错误数据的问题以及重复的问题,以遵守公平使用和转变法律的使用规定。如果有多个适用的正确答案,我们只保留其中一个。此外,我们打乱了每个问题的选项顺序,以确保选择项不遵循任何特定模式。为了方便使用,我们还使用半自动脚本重新格式化了讲座和解决方案。因此,文字中的特殊结构,例如表格和列表,与简单的文本段落容易区分。与ImageNet、ReClor和PMR数据集类似,ScienceQA仅可用于非商业研究目的,版权归原作者所有。为确保数据质量,我们开发了一个数据探索工具,以审核收集的数据集中的示例,不正确的注释还经过专家的手动修订。该工具可在 https://scienceqa.github.io/explore.html 中访问。
注释过程参见上述内容
注释者是谁?参见上述内容
来自于:
Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
为数据集提供按照 BibTex 的格式化参考。例如:
@inproceedings{lu2022learn, title={Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering}, author={Lu, Pan and Mishra, Swaroop and Xia, Tony and Qiu, Liang and Chang, Kai-Wei and Zhu, Song-Chun and Tafjord, Oyvind and Clark, Peter and Ashwin Kalyan}, booktitle={The 36th Conference on Neural Information Processing Systems (NeurIPS)}, year={2022} }
感谢 Derek Thomas @datavistics 添加了该数据集。