您可以在 GEM Website 上找到主数据卡片。
Cochrane是一个英文数据集,用于对医学文本进行段落级简化。Cochrane是一个系统回顾临床问题的数据库,其中许多回顾都有以纯英文为目标的摘要,面向没有大学教育的读者。该数据集包含约4,500个这样的文本对。
您可以通过以下方式加载数据集:
import datasets data = datasets.load_dataset('GEM/cochrane-simplification')
数据加载器可以在 here 中找到。
网站 论文 作者Ashwin Devaraj(德克萨斯大学奥斯汀分校),Iain J. Marshall(伦敦国王学院),Byron C. Wallace(东北大学),Junyi Jessy Li(德克萨斯大学奥斯汀分校)
@inproceedings{devaraj-etal-2021-paragraph, title = "Paragraph-level Simplification of Medical Texts", author = "Devaraj, Ashwin and Marshall, Iain and Wallace, Byron and Li, Junyi Jessy", booktitle = "Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies", month = jun, year = "2021", address = "Online", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2021.naacl-main.395", doi = "10.18653/v1/2021.naacl-main.395", pages = "4972--4984", }联系人姓名
Ashwin Devaraj
联系人电子邮件ashwin.devaraj@utexas.edu
有排行榜吗?否
否
涵盖的语言英语
许可证cc-by-4.0:知识共享署名4.0国际
预期用途该数据集的预期用途是训练能够简化医学文本的模型,以便普通读者更容易理解。
主要任务简化
交际目标在该数据集上训练的模型可以用于简化医学文本,使其更容易为非医学专业的读者理解。
学术
策展组织德克萨斯大学奥斯汀分校,伦敦国王学院,东北大学
数据集创建者Ashwin Devaraj(德克萨斯大学奥斯汀分校),Iain J. Marshall(伦敦国王学院),Byron C. Wallace(东北大学),Junyi Jessy Li(德克萨斯大学奥斯汀分校)
资金国家卫生研究院(NIH)资助的R01-LM012086号授予,美国国家科学基金会(NSF)资助的IIS-1850153号授予,德克萨斯先进计算中心(TACC)计算资源
将数据集添加到GEM的人是谁?Ashwin Devaraj(德克萨斯大学奥斯汀分校)
{ "gem_id": "gem-cochrane-simplification-train-766", "doi": "10.1002/14651858.CD002173.pub2", "source": "Of 3500 titles retrieved from the literature, 24 papers reporting on 23 studies could be included in the review. The studies were published between 1970 and 1997 and together included 1026 participants. Most were cross-over studies. Few studies provided sufficient information to judge the concealment of allocation. Four studies provided results for the percentage of symptom-free days. Pooling the results did not reveal a statistically significant difference between sodium cromoglycate and placebo. For the other pooled outcomes, most of the symptom-related outcomes and bronchodilator use showed statistically significant results, but treatment effects were small. Considering the confidence intervals of the outcome measures, a clinically relevant effect of sodium cromoglycate cannot be excluded. The funnel plot showed an under-representation of small studies with negative results, suggesting publication bias. There is insufficient evidence to be sure about the efficacy of sodium cromoglycate over placebo. Publication bias is likely to have overestimated the beneficial effects of sodium cromoglycate as maintenance therapy in childhood asthma.", "target": "In this review we aimed to determine whether there is evidence for the effectiveness of inhaled sodium cromoglycate as maintenance treatment in children with chronic asthma. Most of the studies were carried out in small groups of patients. Furthermore, we suspect that not all studies undertaken have been published. The results show that there is insufficient evidence to be sure about the beneficial effect of sodium cromoglycate compared to placebo. However, for several outcome measures the results favoured sodium cromoglycate." }数据集拆分
此数据集是第一个发布的段落级简化数据集(之前的工作主要集中在简化单个句子)。此外,此数据集属于医学领域,这是文本简化的特别有用领域。
类似的数据集否
数据集测量的能力该数据集通过省略非显著信息和简化医学术语来衡量模型简化医学文本段落的能力。
否
是否有其他拆分?否
该数据集通过省略非显著信息和简化医学术语来衡量模型简化医学文本段落的能力。
指标其他:其他指标,BLEU
其他指标SARI衡量文本简化的质量
以前的结果是否可用?是
相关的先前结果引入此数据集的论文使用BART模型(在XSum上预训练)进行了训练,通过非可能性训练达到了最大SARI得分和BLEU得分分别为40和43。
否
未经验证
是否进行数据过滤?未经过滤
无
注释服务?否
否
是/很可能
是否有PII标识?无识别
否
否
是
数据集如何满足需求的细节此数据集可用于简化对非医学训练人员来说可能无法理解的医学文本。
不确定
语言制作人是否代表语言?数据集是根据由医学专业人员撰写的医学文献回顾的摘要和纯语言摘要生成的,因此并不是由代表整个英语族群的人员生成的。
此数据集的主要限制是摘要和纯语言摘要之间的信息对齐通常粗略,因此纯语言摘要可能包含在摘要中找不到的信息。而且,纯语言目标通常包含公式化的陈述,例如“此证据截至[月份][年]”,在摘要中找不到。另一个限制是一些纯语言摘要没有对技术摘要进行太多简化,仍然包含医学术语。
不适合应用需要注意的主要问题是事实正确性错误。到目前为止,简化工作在模型生成物与输入文本的逻辑保真性上没有过多强调,并且介绍此数据集的论文没有探讨用于解决这个问题的建模技术。这些错误在医学领域尤其棘手,本论文介绍的模型有时会修改疾病和药物名称等实体。