数据集:
copenlu/spiced
科学改写和信息变化数据集(SPICED)是一个由科学论文、新闻媒体和Twitter的科学发现对构成的数据集。这些配对的类型包括和。每对配对通过信息匹配得分(IMS)标记,并根据描述的发现中句子的信息相似性水平在1-5的范围内进行评分。此数据集从S2ORC中进行筛选,并使用Altmetric匹配新闻文章和推文。专家使用Prolific平台和Potato进行注释。当使用该数据集时,请引用以下引文:
@article{modeling-information-change, title={{Modeling Information Change in Science Communication with Semantically Matched Paraphrases}}, author={Wright, Dustin and Pei, Jiaxin and Jurgens, David and Augenstein, Isabelle}, year={2022}, booktitle = {Proceedings of EMNLP}, publisher = {Association for Computational Linguistics}, year = 2022 }
该任务是预测两个科学句子之间的IMS,它是一个介于1和5之间的标量。首选的评估指标是均方误差和Pearson相关系数。
英语
有关数据集创建的详细信息,请参阅我们的 EMNLP 2022 paper 。
科学传播是一个将高度技术的科学语言翻译成普通人可以理解的通俗语言的复杂过程。与此同时,一般公众依赖良好的科学传播来做出关于健康和行为的重要决策。SPICED的策划旨在提供一个训练数据集和基准,用于衡量科学信息在科学传播流程的不同阶段的变化的机器学习模型。
科学文本:S2ORC
新闻文章和推文通过Altmetric进行收集。
谁是源语言生产者?科学家、记者和Twitter用户。
[需要更多信息]
谁是注释者?[需要更多信息]
[需要更多信息]
在SPICED上训练的模型可用于进行大规模的科学传播分析。它们可以用于匹配在不同媒体中讨论的相同发现,并揭示在科学传播流程的不同阶段报道差异的趋势。希望这能有助于构建改进科学传播的工具。
该数据集仅限于计算机科学、医学、生物学和心理学,这可能会对模型在各个主题上的表现产生一些偏见。
虽然提供了一些上下文信息,但我们不会发布新闻文章和科学论文的全文,这可能会包含进一步帮助学习任务的上下文内容。但我们会提供论文DOI和原始新闻文章的链接,以便获取全文。
Dustin Wright,Jiaxin Pei,David Jurgens和Isabelle Augenstein
MIT
感谢 @dwright37 添加了此数据集。