"trivia_qa"的数据集卡片
数据集概述
TriviaQA 是一个阅读理解数据集,包含超过65万个问题-答案-证据三元组。TriviaQA包括由知识爱好者撰写的95K个问题-答案对,并独立收集的证据文档,平均每个问题有6个提供高质量远程监督以回答问题的证据。
支持的任务和排行榜
More Information Needed
语言
英语。
数据集结构
数据实例
rc
- 下载的数据集文件大小:2.67 GB
- 生成的数据集大小:16.02 GB
- 总共使用的磁盘空间:18.68 GB
'train' 的示例如下所示。
rc.nocontext
- 下载的数据集文件大小:2.67 GB
- 生成的数据集大小:126.27 MB
- 总共使用的磁盘空间:2.79 GB
'train' 的示例如下所示。
unfiltered
- 下载的数据集文件大小:3.30 GB
- 生成的数据集大小:29.24 GB
- 总共使用的磁盘空间:32.54 GB
'validation' 的示例如下所示。
unfiltered.nocontext
- 下载的数据集文件大小:632.55 MB
- 生成的数据集大小:74.56 MB
- 总共使用的磁盘空间:707.11 MB
'train' 的示例如下所示。
数据字段
数据字段在所有拆分中都是相同的。
rc
- 问题:一个字符串特征。
- 问题ID:一个字符串特征。
- 问题来源:一个字符串特征。
- 实体页面:一个包含以下特征的字典特征:
- 文档来源:一个字符串特征。
- 文件名:一个字符串特征。
- 标题:一个字符串特征。
- Wiki上下文:一个字符串特征。
- 搜索结果:一个包含以下特征的字典特征:
- 描述:一个字符串特征。
- 文件名:一个字符串特征。
- 排名:一个整型特征。
- 标题:一个字符串特征。
- URL:一个字符串特征。
- 搜索上下文:一个字符串特征。
- 别名:一个字符串特征列表。
- 规范化的别名:一个字符串特征列表。
- 匹配的维基实体名称:一个字符串特征。
- 规范化的匹配维基实体名称:一个字符串特征。
- 规范化值:一个字符串特征。
- 类型:一个字符串特征。
- 值:一个字符串特征。
rc.nocontext
- 问题:一个字符串特征。
- 问题ID:一个字符串特征。
- 问题来源:一个字符串特征。
- 实体页面:一个包含以下特征的字典特征:
- 文档来源:一个字符串特征。
- 文件名:一个字符串特征。
- 标题:一个字符串特征。
- Wiki上下文:一个字符串特征。
- 搜索结果:一个包含以下特征的字典特征:
- 描述:一个字符串特征。
- 文件名:一个字符串特征。
- 排名:一个整型特征。
- 标题:一个字符串特征。
- URL:一个字符串特征。
- 搜索上下文:一个字符串特征。
- 别名:一个字符串特征列表。
- 规范化的别名:一个字符串特征列表。
- 匹配的维基实体名称:一个字符串特征。
- 规范化的匹配维基实体名称:一个字符串特征。
- 规范化值:一个字符串特征。
- 类型:一个字符串特征。
- 值:一个字符串特征。
unfiltered
- 问题:一个字符串特征。
- 问题ID:一个字符串特征。
- 问题来源:一个字符串特征。
- 实体页面:一个包含以下特征的字典特征:
- 文档来源:一个字符串特征。
- 文件名:一个字符串特征。
- 标题:一个字符串特征。
- Wiki上下文:一个字符串特征。
- 搜索结果:一个包含以下特征的字典特征:
- 描述:一个字符串特征。
- 文件名:一个字符串特征。
- 排名:一个整型特征。
- 标题:一个字符串特征。
- URL:一个字符串特征。
- 搜索上下文:一个字符串特征。
- 别名:一个字符串特征列表。
- 规范化的别名:一个字符串特征列表。
- 匹配的维基实体名称:一个字符串特征。
- 规范化的匹配维基实体名称:一个字符串特征。
- 规范化值:一个字符串特征。
- 类型:一个字符串特征。
- 值:一个字符串特征。
unfiltered.nocontext
- 问题:一个字符串特征。
- 问题ID:一个字符串特征。
- 问题来源:一个字符串特征。
- 实体页面:一个包含以下特征的字典特征:
- 文档来源:一个字符串特征。
- 文件名:一个字符串特征。
- 标题:一个字符串特征。
- Wiki上下文:一个字符串特征。
- 搜索结果:一个包含以下特征的字典特征:
- 描述:一个字符串特征。
- 文件名:一个字符串特征。
- 排名:一个整型特征。
- 标题:一个字符串特征。
- URL:一个字符串特征。
- 搜索上下文:一个字符串特征。
- 别名:一个字符串特征列表。
- 规范化的别名:一个字符串特征列表。
- 匹配的维基实体名称:一个字符串特征。
- 规范化的匹配维基实体名称:一个字符串特征。
- 规范化值:一个字符串特征。
- 类型:一个字符串特征。
- 值:一个字符串特征。
数据拆分
name
|
train
|
validation
|
test
|
rc
|
138384
|
18669
|
17210
|
rc.nocontext
|
138384
|
18669
|
17210
|
unfiltered
|
87622
|
11313
|
10832
|
unfiltered.nocontext
|
87622
|
11313
|
10832
|
数据集创建
策展理由
More Information Needed
源数据
初始数据收集和规范化
More Information Needed
语言的生产者是谁?
More Information Needed
标注
标注过程
More Information Needed
标注者是谁?
More Information Needed
个人和敏感信息
More Information Needed
使用数据的注意事项
数据的社会影响
More Information Needed
偏见讨论
More Information Needed
其他已知限制
More Information Needed
附加信息
数据集策展人
More Information Needed
许可信息
华盛顿大学不拥有TriviaQA中包含的问题和文档的版权。
引用信息
@article{2017arXivtriviaqa,
author = {{Joshi}, Mandar and {Choi}, Eunsol and {Weld},
Daniel and {Zettlemoyer}, Luke},
title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
journal = {arXiv e-prints},
year = 2017,
eid = {arXiv:1705.03551},
pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
eprint = {1705.03551},
}
贡献
感谢
@thomwolf
,
@patrickvonplaten
,
@lewtun
添加此数据集。