数据集:

crd3

语言:

en

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

crowdsourced

批注创建人:

no-annotation

源数据集:

original
英文

数据集 "crd3" 的数据卡片

数据集概述

从对话中讲故事:一种Critical Role龙与地下城数据集。Critical Role是一档未经剧本的直播节目,固定团队的人们玩龙与地下城,这是一款开放式的角色扮演游戏。该数据集是从159集Critical Role剧集转录成文本对话收集而来,包括398,682轮对话。它还包括从Fandom维基收集的相应的摘要概述。该数据集在语言上是独一无二的,因为故事情节完全是通过玩家的合作和口头交流生成的。对于每个对话,有大量的对话轮次,多个不同级别详细程度的摘要,并与先前对话有语义关联。

支持的任务和排行榜

摘要:该数据集可用于训练用于摘要生成的模型。基线模型达到了25.18的ROUGE-L-F1分数。

语言

数据集中的文本为英语,由"The Critical Role"节目上的演员讲述,这是一个每周固定团队人员玩龙与地下城的直播节目,龙与地下城是一款流行的角色扮演游戏。

数据集结构

数据实例

"train"的示例如下所示。

{
    "alignment_score": 3.679936647415161,
    "chunk": "Wish them a Happy Birthday on their Facebook and Twitter pages! Also, as a reminder: D&D Beyond streams their weekly show (\"And Beyond\") every Wednesday on twitch.tv/dndbeyond.",
    "chunk_id": 1,
    "turn_end": 6,
    "turn_num": 4,
    "turn_start": 4,
    "turns": {
        "names": ["SAM"],
        "utterances": ["Yesterday, guys, was D&D Beyond's first one--", "first one-year anniversary. Take two. Hey guys,", "yesterday was D&D Beyond's one-year anniversary.", "Wish them a happy birthday on their Facebook and", "Twitter pages."]
    }
}

数据字段

所有拆分中的数据字段相同。

  • chunk: 字符串类型的特征。
  • chunk_id: int32类型的特征。
  • turn_start: int32类型的特征。
  • turn_end: int32类型的特征。
  • alignment_score: float32类型的特征。
  • turn_num: int32类型的特征。
  • turns: 包含以下内容的字典特征:
    • names: 字符串类型的特征。
    • utterances: 字符串类型的特征。

数据拆分

name train validation test
default 38,969 6,327 7,500

数据集创建

策划理由

对话理解和摘要生成仍然是计算语言学中重要且具有挑战性的问题。当前的摘要生成建模范式在捕捉长篇故事对话领域中的语义与语用、内容选择、重写和评估方面存在特定的失败。CRD3提供了一个语言丰富的数据集,来探索这些领域。

数据源

初始数据收集和规范化

龙与地下城是一款流行的角色扮演游戏,其驱动力在于结构化的故事叙述。Critical Role是一档未经剧本的直播节目,固定团队的人们玩龙与地下城。该数据集包括该节目的159集剧集,剧集被转录成文本。人工解决了一些不一致性(例如发言者姓名的拼写)。

摘要是从 Critical Role Fandom wiki 收集的

谁是源语言的制作者?

语言的制作者是"The Critical Role"节目上的演员,这是一个每周固定团队人员玩龙与地下城的直播节目,龙与地下城是一款流行的角色扮演游戏。

注释

注释过程

[N/A]

谁是注释者?

[N/A]

个人和敏感信息

[N/A]

使用数据的注意事项

数据的社会影响

More Information Needed

偏见讨论

More Information Needed

其他已知限制

More Information Needed

附加信息

数据集策划者

CRTranscript提供了节目的转录;Critical Role Wiki的贡献者提供了摘要概述。

授权信息

该作品根据[Creative Commons Attribution-ShareAlike 4.0 International License][cc-by-sa-4.0]授权,对应于Critical Role Wiki https://criticalrole.fandom.com/

引用信息

@inproceedings{
title = {Storytelling with Dialogue: A Critical Role Dungeons and Dragons Dataset},
author = {Rameshkumar, Revanth  and Bailey, Peter},
year = {2020},
publisher = {Association for Computational Linguistics},
conference = {ACL}
}

贡献

感谢 @thomwolf @lhoestq @mariamabarham @lewtun 添加了该数据集。