数据集:
crd3
子任务:
dialogue-modeling语言:
en计算机处理:
monolingual大小:
10K<n<100K语言创建人:
crowdsourced批注创建人:
no-annotation源数据集:
original许可:
cc-by-sa-4.0从对话中讲故事:一种Critical Role龙与地下城数据集。Critical Role是一档未经剧本的直播节目,固定团队的人们玩龙与地下城,这是一款开放式的角色扮演游戏。该数据集是从159集Critical Role剧集转录成文本对话收集而来,包括398,682轮对话。它还包括从Fandom维基收集的相应的摘要概述。该数据集在语言上是独一无二的,因为故事情节完全是通过玩家的合作和口头交流生成的。对于每个对话,有大量的对话轮次,多个不同级别详细程度的摘要,并与先前对话有语义关联。
摘要:该数据集可用于训练用于摘要生成的模型。基线模型达到了25.18的ROUGE-L-F1分数。
数据集中的文本为英语,由"The Critical Role"节目上的演员讲述,这是一个每周固定团队人员玩龙与地下城的直播节目,龙与地下城是一款流行的角色扮演游戏。
"train"的示例如下所示。
{ "alignment_score": 3.679936647415161, "chunk": "Wish them a Happy Birthday on their Facebook and Twitter pages! Also, as a reminder: D&D Beyond streams their weekly show (\"And Beyond\") every Wednesday on twitch.tv/dndbeyond.", "chunk_id": 1, "turn_end": 6, "turn_num": 4, "turn_start": 4, "turns": { "names": ["SAM"], "utterances": ["Yesterday, guys, was D&D Beyond's first one--", "first one-year anniversary. Take two. Hey guys,", "yesterday was D&D Beyond's one-year anniversary.", "Wish them a happy birthday on their Facebook and", "Twitter pages."] } }
所有拆分中的数据字段相同。
name | train | validation | test |
---|---|---|---|
default | 38,969 | 6,327 | 7,500 |
对话理解和摘要生成仍然是计算语言学中重要且具有挑战性的问题。当前的摘要生成建模范式在捕捉长篇故事对话领域中的语义与语用、内容选择、重写和评估方面存在特定的失败。CRD3提供了一个语言丰富的数据集,来探索这些领域。
龙与地下城是一款流行的角色扮演游戏,其驱动力在于结构化的故事叙述。Critical Role是一档未经剧本的直播节目,固定团队的人们玩龙与地下城。该数据集包括该节目的159集剧集,剧集被转录成文本。人工解决了一些不一致性(例如发言者姓名的拼写)。
摘要是从 Critical Role Fandom wiki 收集的
谁是源语言的制作者?语言的制作者是"The Critical Role"节目上的演员,这是一个每周固定团队人员玩龙与地下城的直播节目,龙与地下城是一款流行的角色扮演游戏。
[N/A]
谁是注释者?[N/A]
[N/A]
CRTranscript提供了节目的转录;Critical Role Wiki的贡献者提供了摘要概述。
该作品根据[Creative Commons Attribution-ShareAlike 4.0 International License][cc-by-sa-4.0]授权,对应于Critical Role Wiki https://criticalrole.fandom.com/
@inproceedings{ title = {Storytelling with Dialogue: A Critical Role Dungeons and Dragons Dataset}, author = {Rameshkumar, Revanth and Bailey, Peter}, year = {2020}, publisher = {Association for Computational Linguistics}, conference = {ACL} }
感谢 @thomwolf , @lhoestq , @mariamabarham , @lewtun 添加了该数据集。