数据集:
mdd
子任务:
dialogue-modeling语言:
计算机处理:
monolingual语言创建人:
found批注创建人:
no-annotation源数据集:
original预印本库:
arxiv:1511.06931许可:
电影对话数据集(MDD)旨在衡量模型在围绕电影主题的目标导向和非目标导向对话中的表现(问题回答、推荐和讨论),数据来源包括 MovieLens 和 OMDb 等各种电影评论来源。
[需要更多信息]
数据以英语的形式呈现,用户在 OMDb 和 MovieLens 网站上编写。
task3_qarecs 配置的 train 分割下的一个实例:
{'dialogue_turns': {'speaker': [0, 1, 0, 1, 0, 1], 'utterance': ["I really like Jaws, Bottle Rocket, Saving Private Ryan, Tommy Boy, The Muppet Movie, Face/Off, and Cool Hand Luke. I'm looking for a Documentary movie.", 'Beyond the Mat', 'Who is that directed by?', 'Barry W. Blaustein', 'I like Jon Fauer movies more. Do you know anything else?', 'Cinematographer Style']}}
task4_reddit 配置的 cand-valid 分割下的一个实例:
{'dialogue_turns': {'speaker': [0], 'utterance': ['MORTAL KOMBAT !']}}
对于所有配置:
分割及其对应的大小如下:
config | train | test | validation | cand_valid | cand_test |
---|---|---|---|---|---|
task1_qa | 96185 | 9952 | 9968 | - | - |
task2_recs | 1000000 | 10000 | 10000 | - | - |
task3_qarecs | 952125 | 4915 | 5052 | - | - |
task4_reddit | 945198 | 10000 | 10000 | 10000 | 10000 |
cand_valid 和 cand_test 是 task4_reddit 配置的负面候选人,用于将真正的正面候选人与这些候选人进行排名,并报告 hits@k(或其他排名指标)。 (请参阅论文)
[需要更多信息]
任务的构建依赖于一些现有的数据集:
MovieLens。数据于 http://grouplens.org/datasets/movielens/20m/ 在2015年5月27日下载。
OMDB。数据于 http://beforethecode.com/projects/omdb/download.aspx 在2015年5月28日下载。
对于 task4_reddit ,数据是 https://www.reddit.com/r/datasets/comments/3bxlg7 提供的数据的经过处理的子集(仅包含电影子论坛)。
MovieLens、OMDB 网站和 reddit 等网站的用户。
[需要更多信息]
注释者是谁?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
Jesse Dodge 和 Andreea Gane 和 Xiang Zhang 和 Antoine Bordes 和 Sumit Chopra 和 Alexander Miller 和 Arthur Szlam 和 Jason Weston(Facebook 研究部门)。
Creative Commons Attribution 3.0 License
@misc{dodge2016evaluating, title={Evaluating Prerequisite Qualities for Learning End-to-End Dialog Systems}, author={Jesse Dodge and Andreea Gane and Xiang Zhang and Antoine Bordes and Sumit Chopra and Alexander Miller and Arthur Szlam and Jason Weston}, year={2016}, eprint={1511.06931}, archivePrefix={arXiv}, primaryClass={cs.CL} }
感谢 @gchhablani 添加了该数据集。