数据集:

allenai/scitldr

语言:

en

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

found

批注创建人:

no-annotation

源数据集:

original

预印本库:

arxiv:2004.15011
英文

SciTLDR 数据集卡片

数据集摘要

SciTLDR:科学文档的极端摘要

SciTLDR是一个包含3.2K篇论文中5.4K个摘要的多目标数据集。SciTLDR包含作者编写的和专家推导的摘要,后者使用一种新颖的注释协议收集,该协议在最大程度减少注释负担的同时产生高质量的摘要。

支持的任务和排行榜

summarization(摘要)

语言

英语

数据集结构

SciTLDR被分为60%的训练集,20%的开发集和20%的测试集。对于每个文件,每行都是一个json,格式如下

{
   "source":[
      "sent0",
      "sent1",
      "sent2",
      ...
   ],
   "source_labels":[binary list in which 1 is the oracle sentence],
   "rouge_scores":[precomputed rouge-1 scores],
   "paper_id":"PAPER-ID",
   "target":[
     "author-tldr",
      "pr-tldr0", 
      "pr-tldr1",
      ... 
   ],
   "title":"TITLE"
}

rouge_scores和source_labels键对于任何代码的运行都不是必要的,提供了预先计算的Rouge得分用于未来的研究。

数据实例

{ "source": ["混合精度训练(MPT)正在成为一种实际的技术,通过利用现有GPU中支持IEEE半精度浮点数的快速硬件加速提高深度神经网络训练的速度和能效。", "MPT通常与一种称为损失缩放的技术结合使用,该技术通过在反向传播开始之前放大损失值来最大限度地减小数值下溢对训练的影响。", "不幸的是,现有方法使得这个损失缩放值成为一个需要根据模型进行调整的超参数,并且一个单独的缩放值无法适应不同层次和不同训练阶段的需求。", "我们引入了一种名为自适应损失缩放的基于损失缩放的训练方法,使得MPT更加容易和实用,无需调整特定于模型的损失缩放超参数。", "为了与现有方法相比更有效地处理下溢,我们引入了逐层损失缩放值,这些值在训练过程中自动计算。", "我们在多种网络和任务上进行实验,结果显示与使用现有的最先进的MPT和单精度浮点相比,我们的方法能够缩短收敛时间并提高准确性。"], "source_labels": [0, 0, 0, 1, 0, 0], "rouge_scores": [0.2399999958000001, 0.26086956082230633, 0.19999999531250012, 0.38095237636054424, 0.2051282003944774, 0.2978723360796741], "paper_id": "rJlnfaNYvB", "target": ["我们设计了自适应损失缩放来改进混合精度训练,超过了现有的最先进结果。", "在后向传播过程中提出了一种自适应损失缩放方法,其中比例由自动决定以减少下溢。", "作者提出了一种在每个层次上同时且自动地最小化每个层次上的下溢的更复杂的方法来训练FP16精度模型。"], "title": "自适应损失缩放用于混合精度训练"}

数据字段

  • source: 论文的摘要、引言和结论(AIC)或全文,每行一个句子。
  • source_labels:二进制0或1,1表示正确的句子。
  • rouge_scores:每个句子的预计算Rouge基线分数。
  • paper_id:arXiv论文ID。
  • target:每个句子的多个摘要,每行一个句子。
  • title:论文标题。

数据拆分

train valid test
SciTLDR-A 1992 618 619
SciTLDR-AIC 1992 618 619
SciTLDR-FullText 1992 618 619

数据集创建

[需要更多信息]

策划理由

[需要更多信息]

源数据

初始数据收集和规范化

[需要更多信息]

Source语言生成者是谁?

https://allenai.org/

注释

注释过程

根据评论标题和前128个单词,重写摘要(如果存在)为一个句子或不完整短语。摘要必须不超过一个句子。大多数摘要在15到25个单词之间。平均重写摘要长度为20个单词。

注释者是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据集的社会影响

鼓励在科学文档的极端摘要领域进行进一步研究。

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

[需要更多信息]

许可信息

Apache许可证2.0

引用信息

@article{cachola2020tldr, title={{TLDR}: Extreme Summarization of Scientific Documents}, author={Isabel Cachola and Kyle Lo and Arman Cohan and Daniel S. Weld}, journal={arXiv:2004.15011}, year={2020},}

贡献

感谢 @Bharat123rox 添加此数据集。