OpenAI的能力已经渗透到了各个领域,但有一个领域,如果正确地利用 LLM,可以直接影响人们的生活,产生最大的影响——医疗领域。今年早些时候,ChatGPT 甚至通过了美国医学执照考试(USMLE)的所有三个部分,我们甚至看到了 ChatGPT 如何通过准确的医学诊断帮助拯救了一条狗的生命。然而,我们没有看到太多在医疗领域的实际应用。GPT-4 的能力是否使它成为医疗领域的合适玩家?
巨大的潜力
OpenAI和微软在今年3月发布了一篇关于GPT-4在医学挑战问题上的能力的论文。在这项研究中,GPT-4在医学方面表现出了令人印象深刻的语言理解和生成能力。该研究使用医学考试和基准数据集来评估GPT-4的性能,即使该模型并没有专门针对医学领域进行优化。
研究人员使用USMLE官方练习材料和MultiMedQA数据集来评估GPT-4的性能。GPT-4超过了USMLE及格分数 20多分,超过了之前的模型(包括GPT-3.5)以及专门为医学知识微调的模型。此外,GPT-4表现出了更好的概率校准能力,意味着它更擅长预测正确答案。该研究还探索了GPT-4如何解释医学推理、定制解释和创建假设场景,展示了它在医学教育和实践中的潜力。这些发现突出了GPT-4的能力,同时也承认了在现实应用中与准确性和安全性相关的挑战。
与其旧版本相比,GPT-4在官方医学考试(如 USMLE)上的表现有了很大的提高。与GPT-3.5相比,GPT-4提高了30个百分点以上。虽然GPT-3.5接近及格分数(多项选择题要正确 60%),但GPT-4却以很大的优势通过了分数。
当将GPT-4的早期版本(称为基础模型)与GPT-4进行比较时,前者在某些测试上稍微表现得更好,大约提高了 3-5%。这表明,在使模型更安全、更好地遵循指令的过程中,它可能会失去一些原始性能。研究人员建议,未来的工作可以通过改进训练过程或使用专门的医学数据,来寻找更有效地平衡准确性和安全性的方法。
Med-PaLM在哪里?
上述研究没有将GPT-4与诸如Med-PaLM和Flan-PaLM 540B等模型进行比较,因为这些模型在研究时还没有对所有人开放。
谷歌最近推出了他们的多模态医疗LLM,名为Med-PaLM——一种大型的多模态生成模型,可以编码和解释生物医学数据。它的能力比GPT-4更先进,因为它可以处理各种类型的医学数据,如临床语言、医学图像、基因组学,甚至执行广泛的任务。该模型可以泛化到新的医学任务,并且不需要特定的训练就能进行多模态推理。它只需使用自然语言给出的指令和提示,就能够准确地识别和解释图像中的医学状况。
永远不是万无一失的
然而,GPT-4的应用并不像Med-PaLM提供的那样多样化。虽然GPT-4宣布具有多模态功能,但它还没有对用户开放。此外,GPT-4在医学诊断方面的能力也有负面的观察。问题和偏见是结果的一部分,人们担心GPT-4倾向于嵌入社会偏见,可能会影响其临床决策。
GPT-4 仍然存在幻觉的普遍问题,它会产生错误的信息。该模型在医学引文方面生成了错误的答案。GPT-4为医学引文产生了超过20%的错误。
有21%的GPT-4引用的医学期刊文章被发现是假的;GPT-3.5引用的估计有98%是假的。主题越窄,假文章就越多。尽管有其潜力,但ChatGPT目前还不是一个可靠的医学数据来源。
尽管GPT-4可能无法完全作为医学辅助诊断的工具,但它还有其他可以帮助的功能。医院正在寻求AI来帮助缓解医生的压力。通过可以为电子健康记录写笔记和给患者起草富有同情心的笔记的应用程序,AI可以帮助顺畅地进行流程。将医生和患者的评论转录,然后为电子健康记录创建医生的摘要格式,是医学领域最好的用例之一。考虑到目前的局限性,GPT-4在完全被医学领域采用之前还有很长的路要走。