人工智能聊天机器人在眼科知识评估方面取得显著改善
2023年07月19日 由 daydream 发表
263360
0
ChatGPT-4 AI聊天机器人的更新版本在眼科认证的常用练习资源OphthoQuestions中对84%的多项选择练习题作出了正确回答。这项研究来自多伦多大学团队,该团队的前期研究显示,以前版本的聊天机器人在2023年1月时正确回答了46%的多项选择题,到了2023年2月提升至58%。
“与以前版本相比,这个聊天机器人的更新版本在OphthoQuestions的所有题目分类中的表现似乎有所改善,”领导多伦多大学眼科和视觉科学系的Rajeev H. Muni博士和他的团队写道。"研究结果还表明,在大多数情况下,当给出选项时,聊天机器人的更新版本能够生成准确的回答。"
证据表明,AI聊天机器人产生类似于人类的回答,是动态语言模型,致力于改进现有的对话型AI系统。由于ChatGPT的旧版几乎正确回答了一半的用于美国眼科理事会考试准备的多项选择题,因此该分析通过评估更新的聊天机器人的准确性来更新结果。该团队将前期研究中使用的来自免费的OphthoQuestions试用版的眼科知识评估计划(OKAP)和书面资格考试(WQE)测试的相同练习题输入到ChatGPT-4(2023年3月发布的OpenAI)中。
Muni和其同事记录了使用OphthoQuestions试用版的眼科学员中与ChatGPT聊天机器人选择相同答案的比例。研究的主要结果是聊天机器人能够正确回答的多项选择题数量。研究者使用Microsoft Excel进行数据分析,聊天机器人在2023年3月生成了对于认证考试的答案。
问题的平均长度为306.40个字符,聊天机器人回答长度的平均值为473.83个字符。分析结果非常积极:在125个文本多项选择题中,聊天机器人正确回答了105个(84%)。此外,聊天机器人在普通内科、视网膜和玻璃体以及葡萄膜炎领域的所有问题中都正确回答了100%,但在临床光学方面回答了8个中的13个问题(62%)。
平均而言,约有71%(95% CI,66-75)的眼科学员与聊天机器人选择了相同的多项选择题答案。研究者指出,聊天机器人为125个问题中的123个问题提供了解释和额外的见解(98%)。当去除多项选择题的选项时,分析结果显示聊天机器人对于78个单独问题中的49个(63%)给出了正确答案。
聊天机器人正确回答的多项选择题的中位长度为217个字符,回答错误的问题为246个字符。而正确回答的问题的中位长度为428个字符,回答错误的问题为465个字符。
Muni和同事指出了该研究的局限性,因为聊天机器人为认证考试提供了准备材料,但在官方考试中可能会有不同的表现。他们还指出,聊天机器人为每个用户提供独特的回答,若重复进行研究,可能会有所不同。
"先前的研究可能已经对该设置下的聊天机器人进行了训练,"研究人员写道。"本研究的结果必须在研究日期的背景下进行解释,因为聊天机器人的知识库可能会继续迅速扩展。"
来源:https://www.hcplive.com/view/artificial-intelligence-chatbot-appears-improve-ophthalmic-knowledge-assessment