英文

SPICED数据集卡片

数据集概述

科学改写和信息变化数据集(SPICED)是一个由科学论文、新闻媒体和Twitter的科学发现对构成的数据集。这些配对的类型包括和。每对配对通过信息匹配得分(IMS)标记,并根据描述的发现中句子的信息相似性水平在1-5的范围内进行评分。此数据集从S2ORC中进行筛选,并使用Altmetric匹配新闻文章和推文。专家使用Prolific平台和Potato进行注释。当使用该数据集时,请引用以下引文:

@article{modeling-information-change,
      title={{Modeling Information Change in Science Communication with Semantically Matched Paraphrases}},
      author={Wright, Dustin and Pei, Jiaxin and Jurgens, David and Augenstein, Isabelle},
      year={2022},
      booktitle = {Proceedings of EMNLP},
      publisher = {Association for Computational Linguistics},
      year = 2022
}

支持的任务和排行榜

该任务是预测两个科学句子之间的IMS,它是一个介于1和5之间的标量。首选的评估指标是均方误差和Pearson相关系数。

语言

英语

数据集结构

数据字段

  • DOI:原始科学文章的DOI
  • instance_id:样本的唯一实例ID。该ID包含字段,指示它是推文还是手动标记的(标记为“easy”)
  • News Finding:新闻或推文发现的文本
  • Paper Finding:论文发现的文本
  • News Context:针对新闻实例,是新闻发现的前后两个句子。对于推文,则是推文的副本
  • Paper Context:论文发现的前后两个句子
  • scores:移除低能力注释者后的注释者评分
  • field:论文的学术领域('计算机科学'、'医学'、'生物学'或'心理学')
  • split:数据集划分('训练'、'验证'或'测试')
  • final_score:样本IMS
  • source:“news”或“tweet”
  • News Url:如果是新闻实例,则为源文章的URL;如果是推文,则为推文的ID

数据划分

  • 训练集:4721个实例
  • 验证集:664个实例
  • 测试集:640个实例

数据集创建

有关数据集创建的详细信息,请参阅我们的 EMNLP 2022 paper

策划理由

科学传播是一个将高度技术的科学语言翻译成普通人可以理解的通俗语言的复杂过程。与此同时,一般公众依赖良好的科学传播来做出关于健康和行为的重要决策。SPICED的策划旨在提供一个训练数据集和基准,用于衡量科学信息在科学传播流程的不同阶段的变化的机器学习模型。

源数据

收集和标准化的原始数据

科学文本:S2ORC

新闻文章和推文通过Altmetric进行收集。

谁是源语言生产者?

科学家、记者和Twitter用户。

标注

注释过程

[需要更多信息]

谁是注释者?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据时的注意事项

数据集的社会影响

在SPICED上训练的模型可用于进行大规模的科学传播分析。它们可以用于匹配在不同媒体中讨论的相同发现,并揭示在科学传播流程的不同阶段报道差异的趋势。希望这能有助于构建改进科学传播的工具。

偏见讨论

该数据集仅限于计算机科学、医学、生物学和心理学,这可能会对模型在各个主题上的表现产生一些偏见。

其他已知限制

虽然提供了一些上下文信息,但我们不会发布新闻文章和科学论文的全文,这可能会包含进一步帮助学习任务的上下文内容。但我们会提供论文DOI和原始新闻文章的链接,以便获取全文。

附加信息

数据集策划者

Dustin Wright,Jiaxin Pei,David Jurgens和Isabelle Augenstein

授权信息

MIT

贡献

感谢 @dwright37 添加了此数据集。