数据集:
GEM/FairytaleQA
语言:
en计算机处理:
unknown语言创建人:
unknown批注创建人:
expert-created源数据集:
original预印本库:
arxiv:2203.13947许可:
license:unknown您可以在 GEM Website 找到主要数据卡。
FairytaleQA数据集是一个英文数据集,专注于幼儿园到八年级学生的叙事理解。根据基于证据的理论框架由教育专家生成,FairytaleQA包括来自278个适合儿童的故事的10,580个明确和隐含的问题,涵盖了七种叙事元素或关系。该数据集已经进行了校正,支持问题生成和问题回答两个任务。
您可以通过以下方式加载数据集:
import datasets data = datasets.load_dataset('GEM/FairytaleQA')
数据加载器可以在这里找到 here 。
论文 作者Ying Xu(加州大学尔湾分校);王大阔(IBM研究);于墨(IBM研究);丹尼尔·里奇(加州大学尔湾分校);姚炳生(伦斯勒理工学院);范庚(华盛顿大学);张政(圣母大学);李佳俊(圣母大学);诺拉·布拉德福德(加州大学尔湾分校);周宇(加州大学尔湾分校));周宇(哥伦比亚大学);马兴娟(香港科技大学);杨迪颖(乔治亚理工学院);彭南云(加州大学洛杉矶分校);周宇(哥伦比亚大学);马克·沃肖尔(加州大学尔湾分校)
。 @inproceedings{xu2022fairytaleqa, author={Xu, Ying and Wang, Dakuo and Yu, Mo and Ritchie, Daniel and Yao, Bingsheng and Wu, Tongshuang and Zhang, Zheng and Li, Toby Jia-Jun and Bradford, Nora and Sun, Branda and Hoang, Tran Bao and Sang, Yisi and Hou, Yufang and Ma, Xiaojuan and Yang, Diyi and Peng, Nanyun and Yu, Zhou and Warschauer, Mark}, title = {Fantastic Questions and Where to Find Them: Fairytale{QA} -- An Authentic Dataset for Narrative Comprehension}, publisher = {Association for Computational Linguistics}, year = {2022}}
联系人姓名Ying Xu,Dakuo Wang
联系人电子邮件ying.xu@uci.edu,dakuo.wang@ibm.com
有排行榜吗?是
排行榜链接 排行榜详细信息该任务是生成与给定答案和故事背景相对应的问题。在问题生成任务上取得成功通常通过实现与参考标准问题的高ROUGE-L分数来衡量。
否
涵盖的方言[N/A]
涵盖的语言英语
出自何种语言?[N/A]
许可证未知:无法获得许可证信息
预期用途该数据集的目的是帮助开发系统,以促进儿童教育领域叙事理解能力的评估和培训。该数据集区分了细粒度的阅读技能,如对不同叙事元素的理解,并包含由教育专家注释员生成的高质量QA对,这些注释员具有足够的培训和教育领域知识,以一致的方式创建有效的QA对。
该数据集适用于开发模型,自动生成满足持续供应新问题的需求的问题和QA对,这可能对于大规模开发支持AI的互动式阅读理解能力学习和评估平台很有意义。
主要任务问题生成
交际目标该任务是生成与给定答案和故事背景相对应的问题。训练此任务的模型可能有助于大规模开发支持AI的互动式阅读理解能力学习和评估平台。
学术界
筛选组织加州大学尔湾分校
数据集创建者Ying Xu(加州大学尔湾分校);王大阔(IBM研究);于墨(IBM研究);丹尼尔·里奇(加州大学尔湾分校);姚炳生(伦斯勒理工学院);范庚(华盛顿大学);张政(圣母大学);李佳俊(圣母大学);诺拉·布拉德福德(加州大学尔湾分校);布兰达·桑(加州大学尔湾分校);章宝(加州大学尔湾分校胡桂方(IBM研究爱尔兰);马晓娟(香港科技大学);杨迪(乔治亚理工学院);彭南云(加州大学洛杉矶分校);周宇(哥伦比亚大学);马克·沃尔夏尔(加州大学尔湾分校)
资助Schmidt基金会
谁将数据集添加到GEM中?阿卜杜拉沃凯尔(智源大学)
story_name:故事节内容所属故事名称的字符串。完整的故事数据可以找到 here 。
content:与专家标记的QA对相关的故事节内容的字符串。用于问题生成和问题回答任务的输入。
question:问题内容的字符串。用于问题回答任务的输入,用于问题生成任务的输出。
answer:所有拆分的答案内容的字符串。用于问题生成任务的输入,用于问题回答任务的输出。
gem_id:遵循GEM命名约定的id字符串GEM-${DATASET_NAME}-${SPLIT-NAME}-${id},其中id是从1开始的增量号
target:正在使用的问题内容的字符串,用于训练
references:包含用于自动评估的问题内容的字符串列表
local_or_sum:字符串,可以是local或summary,指示QA是否与一个故事节有关还是与多个故事节有关
attribute:一个字符串,为教育专家注释员通过7个叙事元素对QA对进行分类,这些元素是根据一个建立的框架注释的。
ex_or_im:一个字符串,可以是explicit或implicit,指示答案是否可以直接在故事内容中找到或不能直接从故事内容中找到。
[N/A]
如何选择标签?典型的数据点包括一个问题,对应的故事内容和一个答案。教育专家注释员标记答案是否仅与一个故事节相关联,或者需要从多个故事节中进行总结,并标记答案是显式的(在故事中可以直接找到)还是隐式的(在故事文本中不能直接找到)。此外,教育专家注释员根据一个建立的框架通过7个叙事元素对QA对进行分类。
示例实例{'story_name':'self-did-it','content':'“ what is your name ? ”girl from underground asked .“ self is my name , ” woman said . that seemed a curious name to the girl , and she once more began to pull the fire apart . then woman grew angry and began to scold , and built it all up again . thus they went on for a good while ; but at last , while they were in the midst of their pulling apart and building up of the fire , woman upset the tar - barrel on girl from underground . then latter screamed and ran away , crying:“ father , father ! self burned me ! ”“ nonsense , if self did it , then self must suffer for it ! ”came the answer from below the hill .','answer':'woman told girl her name was self .','question':"why did girl's father think girl burned herself ?",'gem_id':'GEM-FairytaleQA-test-1006','target':"why did girl's father think girl burned herself ?",'references':["why did girl's father think girl burned herself ?"],'local_or_sum':'local','attribute':'causal relationship','ex_or_im':'implicit'}
数据拆分数据被随机划分为训练、验证和测试三个拆分。最终的拆分大小如下:
Train | Validation | Test | |
---|---|---|---|
# Books | 232 | 23 | 23 |
# QA-Pairs | 8548 | 1025 | 1007 |
书籍是随机分成训练/验证/测试拆分的。我们控制了训练的QA对数量与验证/测试拆分的比例接近8:1:1
[N/A]
该数据集区分了细粒度的阅读技能,如对不同叙事元素的理解,并包含由教育专家生成的高质量QA对,这些专家具有足够的培训和教育领域的知识,以一致的方式创建有效的QA对。
类似的数据集no
数据集测量的能力该数据集适用于开发自动生成问题或QA对的模型,满足对新问题持续供应的需求,这可能有助于大规模开发支持智能互动平台的阅读理解能力的学习和评估。
是的
GEM的修改删除了数据点
修改详情原始数据在验证/测试拆分中包含两个不同注释者的答案,我们在GEM版本中删除了第二个答案,因为它没有用于问题生成任务。
有其他拆分吗?没有
[N/A]
我们能够使用FairytaleQA数据集在问题生成任务上测量模型生成各种与不同叙事元素相对应的问题的能力
指标ROUGE
提议的评估该任务是生成与给定答案和故事背景相对应的问题。在这个任务中的成功通常通过实现与参考标准问题的高 ROUGE 得分来衡量。
以前的结果是否可用?是的
相关的以前的结果目前,基线实验报告了一个 BART-based model 在验证/测试拆分上达到了 ROUGE-L of 0.527/0.527 。
FairytaleQA是专注于教育领域的叙事理解的数据集,针对幼儿园到八年级的学生。我们专注于叙事理解,因为它是一个高级的理解技能,对阅读成绩有很强的预测力,并在日常生活中起着核心作用,因为人们经常以不同形式遇到叙事。故事具有明确的元素和这些元素之间的关系的清晰结构,并且对于此结构存在验证的叙事理解框架,这为我们为数据集开发注释模式提供了基础。
交际目标该数据集的目的是帮助开发系统,以促进儿童教育领域的叙事理解能力的评估和培训。
来自不同来源吗?no
找到
找到在哪里?单个网站
语言生产者童话故事文本来自 Project Gutenberg 网站
覆盖的主题我们使用“童话”作为搜索词,从古登堡计划网站收集文本。
数据验证由数据策展者验证
数据预处理由于找到了大量的童话故事,我们使用了基于下载次数的最流行的故事,因为这些故事可能更高质量。为了保证文字的可读性,我们对某些明显过时的词汇(例如,将“ere”更改为“before”)和标点符号的非常规使用(例如,将连续的分号更改为句号)进行了少量的微小修订。
我们将这些文本根据其语义内容分解成小节,这些小节由我们的注释员进行。我们要求注释员根据100-300个字的段落将故事分成小节,并在自然故事断点处进行分割。首先,一个注释员会分割故事,然后由另一个交叉检查的注释员进行审核。大多数得到的小节是原文的一个自然段落。
是否过滤数据?手动
过滤条件对于每个故事,我们使用 textstat Python软件包评估阅读难度水平,主要基于句子长度、单词长度和单词的普遍程度。我们排除了10年级及以上的故事。
专家制作
评分人数2 < n