数据集:

FremyCompany/AGCT-Dataset

语言:

en

大小:

100K<n<1M

许可:

other
英文

自动临床术语词汇表 (v2023)

此数据集包含422,070个简短的、由计算机生成的SnomedCT概念的定义,涵盖了疾病、程序、药物和解剖学等各个领域。为了生成这些定义,我们使用高质量的SnomedCT关系的口头描述来启动OpenAI Turbo模型,该模型是GPT 3.5的一种变种。

质量控制

重要提示:经过质量控制,我们报告称这些定义中包含了大部分准确、有见地和流畅的定义。然而,由此过程生成的约30%的定义不符合向用户展示的高标准,也不适用于在需要推理的情境下使用机器学习模型,因为它们的质量并非完美。然而,超过95%的定义对于生物医学模型的预训练是有用的。因此,我们发布此数据集用于构建基于检索的系统,并评估在生成定义任务上的大型生物医学语言模型(最终用于对现有语言模型进行低秩微调)。

许可协议

使用此作品的许可协议受到 SnomedCT OpenAI API 协议的约束。我们强烈建议在使用此数据集之前检查这些许可协议。

引用

如果您使用此数据集,请引用以下作品:TODO:将出现在BioNLP 2023中

@misc{remy-and-demeester-2023-glossary,
    title = "Automatic Glossary of Clinical Terminology: a Large-Scale Dictionary of Biomedical Definitions Generated from Ontological Knowledge",
    author = "Remy, François  and
      Demeester, Thomas",
    year = 2023
}