数据集:

voidful/EQG-RACE-PLUS

英文

"QGG-RACE数据集"数据卡

目录

  • 数据集描述
  • 数据集摘要
  • 支持的任务和排行榜
  • 语言
  • 数据集结构
  • 数据实例
  • 数据字段
  • 数据划分
  • 数据集创建
  • 配置理由
  • 来源数据
  • 注释
  • 个人和敏感信息
  • 使用数据的注意事项
  • 数据集的社会影响
  • 偏见讨论
  • 其他已知限制
  • 额外信息
  • 数据集策划者
  • 许可信息
  • 引用信息
  • 贡献

数据集摘要

QGG-RACE数据集是RACE的一个子集,包含三种类型的问题:事实型、连词和摘要。

数据集下载: GitHub Release

数据统计:

Types Examples Train Dev Test
Cloze Yingying is Wangwang's _ . 43167 2405 2462
Factiod What can Mimi do? 18405 1030 944
Summarization According to this passage we know that _ . 3004 175 184

支持的任务和排行榜

  • 问题生成
  • 阅读理解
  • 文本摘要

语言

该数据集为英文。

数据集结构

数据实例

下面是该数据集中的一个示例数据实例:

{
    "answers": [
        "D",
        "A",
        "B",
        "C"
    ],
    "options": [
        [
            "States",
            "Doubts",
            "Confirms",
            "Removes"
        ],
        [
            "shows the kind of male birds females seek out.",
            "indicates the wandering albatross is the most faithful.",
            "is based on Professor Stutchbury's 20 years' research.",
            "suggests that female birds select males near their home."
        ],
        [
            "young birds' quality depends on their feather.",
            "some male birds care for others' young as their own.",
            "female birds go to find males as soon as autumn comes.",
            "female birds are responsible for feeding the hungry babies."
        ],
        [
            "A book about love-birds.",
            "Birds' living habits and love life",
            "The fact that birds don't love their mates forever.",
            "The factors that influence birds to look for another mate."
        ]
    ],
    "questions": [
        "What does the underline word \"dispels\" mean?",
        "The book The Private Lives of Birds _ .",
        "According to the passage, we can infer that _ .",
        "What is the passage mainly about?"
    ],
    "article": "Birds are not as loyal to their partners as you might think ...",
    "id": "high11327.txt",
    "factoid_questions": [
        "What does the underline word \"dispels\" mean?"
    ],
    "cloze_questions": [
        "The book The Private Lives of Birds _ ."
    ],
    "summarization_questions": [
        "According to the passage, we can infer that _ ."
    ]
}

数据字段

  • id:示例的唯一标识符。
  • article:主要的文本段落。
  • questions:与段落相关的问题列表。
  • options:每个问题的答案选项列表。
  • answers:每个问题的正确答案的索引。
  • factoid_questions:事实型问题列表。
  • cloze_questions:连词问题列表。
  • summarization_questions:摘要问题列表。

数据划分

  • 训练集:包含65,576个示例。
  • 开发集:包含3,610个示例。
  • 测试集:包含3,590个示例。

数据集创建

配置理由

QGG-RACE数据集是RACE数据集的一个子集,专注于三种类型的问题:事实型、连词和摘要。该数据集旨在促进问题生成和阅读理解方面的研究。

来源数据

数据收集和标准化

QGG-RACE数据集源自于RACE数据集。

谁是源语言的制作者?

源语言的制作者是RACE数据集的作者。

注释

注释过程

该数据集用问题及其对应的答案选项进行注释。

谁是注释者?

注释者是RACE数据集的作者。

个人和敏感信息

该数据集不包含任何个人或敏感信息。

使用数据的注意事项

数据的社会影响

QGG-RACE数据集可用于问题生成和阅读理解方面的研究,从而促进这些领域的改进。

偏见讨论

由于该数据集是RACE数据集的一个子集,可能会继承一些偏见。

其他已知限制

暂无其他已知限制。

额外信息

数据集策划者

QGG-RACE数据集由QGG-RACE数据集GitHub仓库的作者策划。

许可信息

该数据集在 CC BY 4.0 License 下发布。

引用信息

关于QGG-RACE数据集,暂无引用信息。

贡献

感谢@p208p2002创建了QGG-RACE数据集。