此数据集包含422,070个简短的、由计算机生成的SnomedCT概念的定义,涵盖了疾病、程序、药物和解剖学等各个领域。为了生成这些定义,我们使用高质量的SnomedCT关系的口头描述来启动OpenAI Turbo模型,该模型是GPT 3.5的一种变种。
重要提示:经过质量控制,我们报告称这些定义中包含了大部分准确、有见地和流畅的定义。然而,由此过程生成的约30%的定义不符合向用户展示的高标准,也不适用于在需要推理的情境下使用机器学习模型,因为它们的质量并非完美。然而,超过95%的定义对于生物医学模型的预训练是有用的。因此,我们发布此数据集用于构建基于检索的系统,并评估在生成定义任务上的大型生物医学语言模型(最终用于对现有语言模型进行低秩微调)。
使用此作品的许可协议受到 SnomedCT 和 OpenAI API 协议的约束。我们强烈建议在使用此数据集之前检查这些许可协议。
如果您使用此数据集,请引用以下作品:TODO:将出现在BioNLP 2023中
@misc{remy-and-demeester-2023-glossary, title = "Automatic Glossary of Clinical Terminology: a Large-Scale Dictionary of Biomedical Definitions Generated from Ontological Knowledge", author = "Remy, François and Demeester, Thomas", year = 2023 }