数据集:
ghomasHudson/muld
多任务长文档基准测试
MuLD(多任务长文档基准测试)是一个包含6个自然语言处理任务的数据集,其中输入至少包含10,000个单词。该基准测试涵盖了各种任务类型,包括翻译、摘要、问答和分类。此外,输出长度从单词级别的分类标签到比输入文本更长的输出都有。
这6个MuLD任务包括:
数据以文本对文本的格式呈现,每个实例包含一个输入字符串、一个输出字符串和(可选的)JSON编码元数据。
{'input: 'Who was wearing the blue shirt? The beginning...', 'output': ['John'], 'metadata': ''}
每个任务包含不同的拆分,取决于源数据集中的可用内容:
Task Name | Train | Validation | Test |
---|---|---|---|
NarrativeQA | ✔️ | ✔️ | ✔️ |
HotpotQA | ✔️ | ✔️ | |
AO3 Style Change Detection | ✔️ | ✔️ | ✔️ |
Movie Character Types | ✔️ | ✔️ | ✔️ |
VLSP | ✔️ | ||
OpenSubtitles | ✔️ | ✔️ |
@misc{hudson2022muld, title={MuLD: The Multitask Long Document Benchmark}, author={G Thomas Hudson and Noura Al Moubayed}, year={2022}, eprint={2202.07362}, archivePrefix={arXiv}, primaryClass={cs.CL} }
请同时引用直接在此基准测试中使用的论文。