数据集:
allenai/scitldr
任务:
摘要生成语言:
en计算机处理:
monolingual大小:
1K<n<10K语言创建人:
found批注创建人:
no-annotation源数据集:
original预印本库:
arxiv:2004.15011许可:
license:unknownSciTLDR:科学文档的极端摘要
SciTLDR是一个包含3.2K篇论文中5.4K个摘要的多目标数据集。SciTLDR包含作者编写的和专家推导的摘要,后者使用一种新颖的注释协议收集,该协议在最大程度减少注释负担的同时产生高质量的摘要。
summarization(摘要)
英语
SciTLDR被分为60%的训练集,20%的开发集和20%的测试集。对于每个文件,每行都是一个json,格式如下
{ "source":[ "sent0", "sent1", "sent2", ... ], "source_labels":[binary list in which 1 is the oracle sentence], "rouge_scores":[precomputed rouge-1 scores], "paper_id":"PAPER-ID", "target":[ "author-tldr", "pr-tldr0", "pr-tldr1", ... ], "title":"TITLE" }
rouge_scores和source_labels键对于任何代码的运行都不是必要的,提供了预先计算的Rouge得分用于未来的研究。
{ "source": ["混合精度训练(MPT)正在成为一种实际的技术,通过利用现有GPU中支持IEEE半精度浮点数的快速硬件加速提高深度神经网络训练的速度和能效。", "MPT通常与一种称为损失缩放的技术结合使用,该技术通过在反向传播开始之前放大损失值来最大限度地减小数值下溢对训练的影响。", "不幸的是,现有方法使得这个损失缩放值成为一个需要根据模型进行调整的超参数,并且一个单独的缩放值无法适应不同层次和不同训练阶段的需求。", "我们引入了一种名为自适应损失缩放的基于损失缩放的训练方法,使得MPT更加容易和实用,无需调整特定于模型的损失缩放超参数。", "为了与现有方法相比更有效地处理下溢,我们引入了逐层损失缩放值,这些值在训练过程中自动计算。", "我们在多种网络和任务上进行实验,结果显示与使用现有的最先进的MPT和单精度浮点相比,我们的方法能够缩短收敛时间并提高准确性。"], "source_labels": [0, 0, 0, 1, 0, 0], "rouge_scores": [0.2399999958000001, 0.26086956082230633, 0.19999999531250012, 0.38095237636054424, 0.2051282003944774, 0.2978723360796741], "paper_id": "rJlnfaNYvB", "target": ["我们设计了自适应损失缩放来改进混合精度训练,超过了现有的最先进结果。", "在后向传播过程中提出了一种自适应损失缩放方法,其中比例由自动决定以减少下溢。", "作者提出了一种在每个层次上同时且自动地最小化每个层次上的下溢的更复杂的方法来训练FP16精度模型。"], "title": "自适应损失缩放用于混合精度训练"}
train | valid | test | |
---|---|---|---|
SciTLDR-A | 1992 | 618 | 619 |
SciTLDR-AIC | 1992 | 618 | 619 |
SciTLDR-FullText | 1992 | 618 | 619 |
[需要更多信息]
[需要更多信息]
[需要更多信息]
Source语言生成者是谁?根据评论标题和前128个单词,重写摘要(如果存在)为一个句子或不完整短语。摘要必须不超过一个句子。大多数摘要在15到25个单词之间。平均重写摘要长度为20个单词。
注释者是谁?[需要更多信息]
[需要更多信息]
鼓励在科学文档的极端摘要领域进行进一步研究。
[需要更多信息]
[需要更多信息]
[需要更多信息]
Apache许可证2.0
@article{cachola2020tldr, title={{TLDR}: Extreme Summarization of Scientific Documents}, author={Isabel Cachola and Kyle Lo and Arman Cohan and Daniel S. Weld}, journal={arXiv:2004.15011}, year={2020},}
感谢 @Bharat123rox 添加此数据集。