数据集:

mdd

任务:

文本生成

填充掩码

子任务:

dialogue-modeling

语言:

计算机处理:

monolingual

大小:

100K<n<1M 1M<n<10M

语言创建人:

found

批注创建人:

no-annotation

源数据集:

original

预印本库:

arxiv:1511.06931

许可:

cc-by-3.0

数据集介绍文件清单

英文

MDD 数据集卡片

数据集概要

电影对话数据集（MDD）旨在衡量模型在围绕电影主题的目标导向和非目标导向对话中的表现（问题回答、推荐和讨论），数据来源包括 MovieLens 和 OMDb 等各种电影评论来源。

支持的任务和排行榜

[需要更多信息]

语言

数据以英语的形式呈现，用户在 OMDb 和 MovieLens 网站上编写。

数据集结构

数据实例

task3_qarecs 配置的 train 分割下的一个实例：

{'dialogue_turns': {'speaker': [0, 1, 0, 1, 0, 1], 'utterance': ["I really like Jaws, Bottle Rocket, Saving Private Ryan, Tommy Boy, The Muppet Movie, Face/Off, and Cool Hand Luke. I'm looking for a Documentary movie.", 'Beyond the Mat', 'Who is that directed by?', 'Barry W. Blaustein', 'I like Jon Fauer movies more. Do you know anything else?', 'Cinematographer Style']}}

task4_reddit 配置的 cand-valid 分割下的一个实例：

{'dialogue_turns': {'speaker': [0], 'utterance': ['MORTAL KOMBAT !']}}

数据字段

对于所有配置：

dialogue_turns: 包含以下内容的字典特征：
- speaker: 可能值为0、1的整数，表示发言者。
- utterance: 包含文本话语的字符串特征。

数据分割

分割及其对应的大小如下：

config	train	test	validation	cand_valid	cand_test
task1_qa	96185	9952	9968	-	-
task2_recs	1000000	10000	10000	-	-
task3_qarecs	952125	4915	5052	-	-
task4_reddit	945198	10000	10000	10000	10000

cand_valid 和 cand_test 是 task4_reddit 配置的负面候选人，用于将真正的正面候选人与这些候选人进行排名，并报告 hits@k（或其他排名指标）。（请参阅论文）

数据集创建

策展理由

[需要更多信息]

源数据

数据的初始收集和归一化

任务的构建依赖于一些现有的数据集：

MovieLens。数据于 http://grouplens.org/datasets/movielens/20m/ 在2015年5月27日下载。

OMDB。数据于 http://beforethecode.com/projects/omdb/download.aspx 在2015年5月28日下载。

对于 task4_reddit ，数据是 https://www.reddit.com/r/datasets/comments/3bxlg7 提供的数据的经过处理的子集（仅包含电影子论坛）。

谁是源语言的生产者？

MovieLens、OMDB 网站和 reddit 等网站的用户。

注释

注释过程

[需要更多信息]

注释者是谁？

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据时的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策展者

Jesse Dodge 和 Andreea Gane 和 Xiang Zhang 和 Antoine Bordes 和 Sumit Chopra 和 Alexander Miller 和 Arthur Szlam 和 Jason Weston（Facebook 研究部门）。

许可信息

Creative Commons Attribution 3.0 License

引用信息

@misc{dodge2016evaluating,
      title={Evaluating Prerequisite Qualities for Learning End-to-End Dialog Systems}, 
      author={Jesse Dodge and Andreea Gane and Xiang Zhang and Antoine Bordes and Sumit Chopra and Alexander Miller and Arthur Szlam and Jason Weston},
      year={2016},
      eprint={1511.06931},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

贡献

感谢 @gchhablani 添加了该数据集。

作者:

佚名

数据集大小:

25.43 KB