数据集:
wiki_movies
任务:
问答子任务:
closed-domain-qa语言:
en计算机处理:
monolingual大小:
100K<n<1M语言创建人:
crowdsourced批注创建人:
crowdsourced源数据集:
original预印本库:
arxiv:1606.03126许可:
cc-by-3.0WikiMovies 数据集包含大约100,000个(带模板)问题,涵盖75,000个基于开放电影数据库(OMDb)中有答案的实体。它是电影对话数据集的问答部分。
数据集中的文本以英语书写。
原始数据由通过制表符分隔的问题答案对组成。以下是3个示例:
1 what does Grégoire Colin appear in? Before the Rain 1 Joe Thomas appears in which movies? The Inbetweeners Movie, The Inbetweeners 2 1 what films did Michelle Trachtenberg star in? Inspector Gadget, Black Christmas, Ice Princess, Harriet the Spy, The Scribbler
不清楚每行开头的“1”代表什么,但在数据集对象中已删除。
这是Datasets读入的原始数据示例:
{ 'answer': 'Before the Rain', 'question': 'what does Grégoire Colin appear in?' }
答案:包含对应问题的答案的字符串。问题:包含相关问题的字符串。
数据集被划分为训练集、测试集和验证集。划分大小如下:
wiki-entities_qa_* | n examples |
---|---|
train.txt | 96185 |
dev.txt | 10000 |
test.txt | 9952 |
WikiMovies 的构建考虑了以下目标:(i) 机器学习技术应有足够的训练示例以进行学习;(ii) 可以轻松分析不同知识表示的性能,并按问题类型细分结果。数据集可以从 http://fb.ai/babi 下载。
[需要更多信息]
谁是源语言制作人?[需要更多信息]
[需要更多信息]
谁是注释者?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
@misc{miller2016keyvalue, title={Key-Value Memory Networks for Directly Reading Documents}, author={Alexander Miller and Adam Fisch and Jesse Dodge and Amir-Hossein Karimi and Antoine Bordes and Jason Weston}, year={2016}, eprint={1606.03126}, archivePrefix={arXiv}, primaryClass={cs.CL}
感谢 @aclifton314 添加此数据集。