英文

MuLD

多任务长文档基准测试

MuLD(多任务长文档基准测试)是一个包含6个自然语言处理任务的数据集,其中输入至少包含10,000个单词。该基准测试涵盖了各种任务类型,包括翻译、摘要、问答和分类。此外,输出长度从单词级别的分类标签到比输入文本更长的输出都有。

支持的任务和排行榜

这6个MuLD任务包括:

  • NarrativeQA - 一个要求理解书籍和电影情节的问答数据集。
  • HotpotQA - HotpotQA的扩展版本,需要在多个维基百科页面之间进行多跳推理。此扩展版本包括完整的维基百科页面。
  • OpenSubtitles - 基于OpenSubtitles 2018数据集的翻译数据集。提供每个电视节目的全部字幕,英文和德文每行一个字幕。
  • VLSP(Very Long Scientific Papers) - 科学论文摘要数据集的扩展版本。我们不再删除非常长的论文(例如论文),而是明确包含它们并删除任何短论文。
  • AO3风格变化检测 - 由多个“我们档案馆”作者的作品组成的文档,任务是预测每个段落的作者。
  • 电影角色类型 - 预测一个具名角色在电影剧本中是英雄/反派。

数据集结构

数据以文本对文本的格式呈现,每个实例包含一个输入字符串、一个输出字符串和(可选的)JSON编码元数据。

{'input: 'Who was wearing the blue shirt? The beginning...', 'output': ['John'], 'metadata': ''}

数据字段

  • 输入 : 一个字符串,其结构因任务而异,但以统一格式呈现
  • 输出 : 一个字符串列表,其中每个字符串都是可能的答案。大多数实例只有一个答案,但像NarrativeQA和VLSP这样的任务可能有多个答案。
  • 元数据 : 可能有助于评估的附加元数据。在此版本中,只有OpenSubtitles任务包含元数据(用于ContraPro注释)。

数据拆分

每个任务包含不同的拆分,取决于源数据集中的可用内容:

Task Name Train Validation Test
NarrativeQA ✔️ ✔️ ✔️
HotpotQA ✔️ ✔️
AO3 Style Change Detection ✔️ ✔️ ✔️
Movie Character Types ✔️ ✔️ ✔️
VLSP ✔️
OpenSubtitles ✔️ ✔️

引用信息

@misc{hudson2022muld,
      title={MuLD: The Multitask Long Document Benchmark}, 
      author={G Thomas Hudson and Noura Al Moubayed},
      year={2022},
      eprint={2202.07362},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

请同时引用直接在此基准测试中使用的论文。