数据集:

wiki_movies

任务:

问答

语言:

en

计算机处理:

monolingual

大小:

100K<n<1M

语言创建人:

crowdsourced

批注创建人:

crowdsourced

源数据集:

original

预印本库:

arxiv:1606.03126

许可:

cc-by-3.0
英文

WikiMovies 数据集卡片

数据集摘要

WikiMovies 数据集包含大约100,000个(带模板)问题,涵盖75,000个基于开放电影数据库(OMDb)中有答案的实体。它是电影对话数据集的问答部分。

支持的任务和排行榜

  • 问答

语言

数据集中的文本以英语书写。

数据集结构

数据实例

原始数据由通过制表符分隔的问题答案对组成。以下是3个示例:

1 what does Grégoire Colin appear in?	Before the Rain
1 Joe Thomas appears in which movies?	The Inbetweeners Movie, The Inbetweeners 2
1 what films did Michelle Trachtenberg star in?	Inspector Gadget, Black Christmas, Ice Princess, Harriet the Spy, The Scribbler

不清楚每行开头的“1”代表什么,但在数据集对象中已删除。

数据字段

这是Datasets读入的原始数据示例:

{
'answer': 'Before the Rain', 
'question': 'what does Grégoire Colin appear in?'
}

答案:包含对应问题的答案的字符串。问题:包含相关问题的字符串。

数据切分

数据集被划分为训练集、测试集和验证集。划分大小如下:

wiki-entities_qa_* n examples
train.txt 96185
dev.txt 10000
test.txt 9952

数据集创建

策划理由

WikiMovies 的构建考虑了以下目标:(i) 机器学习技术应有足够的训练示例以进行学习;(ii) 可以轻松分析不同知识表示的性能,并按问题类型细分结果。数据集可以从 http://fb.ai/babi 下载。

数据来源

数据收集和归一化

[需要更多信息]

谁是源语言制作人?

[需要更多信息]

注释

注释流程

[需要更多信息]

谁是注释者?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划人

[需要更多信息]

许可信息

[需要更多信息]

引用信息

@misc{miller2016keyvalue,
      title={Key-Value Memory Networks for Directly Reading Documents},
      author={Alexander Miller and Adam Fisch and Jesse Dodge and Amir-Hossein Karimi and Antoine Bordes and Jason Weston},
      year={2016},
      eprint={1606.03126},
      archivePrefix={arXiv},
      primaryClass={cs.CL}

贡献者

感谢 @aclifton314 添加此数据集。