数据集:

GEM/cochrane-simplification

任务:

文生文

语言:

en

计算机处理:

unknown

语言创建人:

unknown

批注创建人:

none

源数据集:

original

许可:

cc-by-4.0
英文

GEM/cochrane-simplification 数据集卡片

连接到主数据卡片

您可以在 GEM Website 上找到主数据卡片。

数据集摘要

Cochrane是一个英文数据集,用于对医学文本进行段落级简化。Cochrane是一个系统回顾临床问题的数据库,其中许多回顾都有以纯英文为目标的摘要,面向没有大学教育的读者。该数据集包含约4,500个这样的文本对。

您可以通过以下方式加载数据集:

import datasets
data = datasets.load_dataset('GEM/cochrane-simplification')

数据加载器可以在 here 中找到。

网站

Link

论文

Link

作者

Ashwin Devaraj(德克萨斯大学奥斯汀分校),Iain J. Marshall(伦敦国王学院),Byron C. Wallace(东北大学),Junyi Jessy Li(德克萨斯大学奥斯汀分校)

数据集概述

数据和文档的获取方式

网页

Link

下载

Link

论文

Link

BibTex
@inproceedings{devaraj-etal-2021-paragraph,
    title = "Paragraph-level Simplification of Medical Texts",
    author = "Devaraj, Ashwin  and
      Marshall, Iain  and
      Wallace, Byron  and
      Li, Junyi Jessy",
    booktitle = "Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies",
    month = jun,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.naacl-main.395",
    doi = "10.18653/v1/2021.naacl-main.395",
    pages = "4972--4984",
}
联系人姓名

Ashwin Devaraj

联系人电子邮件

ashwin.devaraj@utexas.edu

有排行榜吗?

语言和预期用途

多语言?

涵盖的语言

英语

许可证

cc-by-4.0:知识共享署名4.0国际

预期用途

该数据集的预期用途是训练能够简化医学文本的模型,以便普通读者更容易理解。

主要任务

简化

交际目标

在该数据集上训练的模型可以用于简化医学文本,使其更容易为非医学专业的读者理解。

信用

策展组织类型

学术

策展组织

德克萨斯大学奥斯汀分校,伦敦国王学院,东北大学

数据集创建者

Ashwin Devaraj(德克萨斯大学奥斯汀分校),Iain J. Marshall(伦敦国王学院),Byron C. Wallace(东北大学),Junyi Jessy Li(德克萨斯大学奥斯汀分校)

资金

国家卫生研究院(NIH)资助的R01-LM012086号授予,美国国家科学基金会(NSF)资助的IIS-1850153号授予,德克萨斯先进计算中心(TACC)计算资源

将数据集添加到GEM的人是谁?

Ashwin Devaraj(德克萨斯大学奥斯汀分校)

数据集结构

数据字段
  • gem_id:字符串,示例的唯一标识符
  • doi:字符串,用于生成示例的Cochrane回顾的DOI标识符
  • source:字符串,来自Cochrane回顾摘要的摘录
  • target:字符串,与源文本大致对齐的Cochrane回顾纯语言摘要的摘录
示例实例
{
    "gem_id": "gem-cochrane-simplification-train-766",
    "doi": "10.1002/14651858.CD002173.pub2",
    "source": "Of 3500 titles retrieved from the literature, 24 papers reporting on 23 studies could be included in the review. The studies were published between 1970 and 1997 and together included 1026 participants. Most were cross-over studies. Few studies provided sufficient information to judge the concealment of allocation. Four studies provided results for the percentage of symptom-free days. Pooling the results did not reveal a statistically significant difference between sodium cromoglycate and placebo. For the other pooled outcomes, most of the symptom-related outcomes and bronchodilator use showed statistically significant results, but treatment effects were small. Considering the confidence intervals of the outcome measures, a clinically relevant effect of sodium cromoglycate cannot be excluded. The funnel plot showed an under-representation of small studies with negative results, suggesting publication bias. There is insufficient evidence to be sure about the efficacy of sodium cromoglycate over placebo. Publication bias is likely to have overestimated the beneficial effects of sodium cromoglycate as maintenance therapy in childhood asthma.",
    "target": "In this review we aimed to determine whether there is evidence for the effectiveness of inhaled sodium cromoglycate as maintenance treatment in children with chronic asthma. Most of the studies were carried out in small groups of patients. Furthermore, we suspect that not all studies undertaken have been published. The results show that there is insufficient evidence to be sure about the beneficial effect of sodium cromoglycate compared to placebo. However, for several outcome measures the results favoured sodium cromoglycate."
}
数据集拆分
  • 训练集:3568个示例
  • 验证集:411个示例
  • 测试集:480个示例

GEM中的数据集

加入GEM的原因

为什么将该数据集加入GEM?

此数据集是第一个发布的段落级简化数据集(之前的工作主要集中在简化单个句子)。此外,此数据集属于医学领域,这是文本简化的特别有用领域。

类似的数据集

数据集测量的能力

该数据集通过省略非显著信息和简化医学术语来衡量模型简化医学文本段落的能力。

GEM特定的策展

为GEM修改?

是否有其他拆分?

开始使用任务

以前的结果

先前的结果

评估模型能力

该数据集通过省略非显著信息和简化医学术语来衡量模型简化医学文本段落的能力。

指标

其他:其他指标,BLEU

其他指标

SARI衡量文本简化的质量

以前的结果是否可用?

相关的先前结果

引入此数据集的论文使用BART模型(在XSum上预训练)进行了训练,通过非可能性训练达到了最大SARI得分和BLEU得分分别为40和43。

数据集策展

原始策展

来源不同的数据来源

语言数据

数据验证

未经验证

是否进行数据过滤?

未经过滤

结构化注释

是否有其他注释?

注释服务?

同意

是否有同意政策?

私人身份信息(PII)

包含PII吗?

是/很可能

是否有PII标识?

无识别

维护

是否有维护计划 ?

更广泛的社会背景

关于数据集社会影响的先前工作

是否使用基于数据的模型 ?

对于弱势群体的影响

是否满足弱势群体的需求?

数据集如何满足需求的细节

此数据集可用于简化对非医学训练人员来说可能无法理解的医学文本。

偏见讨论

是否有记录的社会偏见?

不确定

语言制作人是否代表语言?

数据集是根据由医学专业人员撰写的医学文献回顾的摘要和纯语言摘要生成的,因此并不是由代表整个英语族群的人员生成的。

使用数据的注意事项

个人身份信息(PII)风险和责任

许可证

已知的技术限制

技术限制

此数据集的主要限制是摘要和纯语言摘要之间的信息对齐通常粗略,因此纯语言摘要可能包含在摘要中找不到的信息。而且,纯语言目标通常包含公式化的陈述,例如“此证据截至[月份][年]”,在摘要中找不到。另一个限制是一些纯语言摘要没有对技术摘要进行太多简化,仍然包含医学术语。

不适合应用

需要注意的主要问题是事实正确性错误。到目前为止,简化工作在模型生成物与输入文本的逻辑保真性上没有过多强调,并且介绍此数据集的论文没有探讨用于解决这个问题的建模技术。这些错误在医学领域尤其棘手,本论文介绍的模型有时会修改疾病和药物名称等实体。