AI医生“大战”名医,诊断一致性达96%

  2023年6月30日,医联于成都举行了国内首次AI医生(MedGPT)与真人医生的诊断一致性评测,并进行了全天候实时直播。现场有120多位患者、10位来自华西医院的医师及7位来自各大医院的名医评审团共同参与了这场评测研究。

  图1. 诊断一致性研究流程

  评审团基于问诊准确性、诊断准确性、治疗建议准确性、辅助检查方案准确性、数据分析准确性、提供可解释信息、自然语言问诊与交互这7个指标进行打分,最终,真人医生综合得分为 7.5分,AI医生综合得分为7.2分。AI医生与三甲主治医生在比分结果上的一致性达到了96%。

  图2. 诊断一致性最终得分对比

  现场共有七个科室、八个咨询台,包括两个心脏病科、泌尿科、骨科等。每个咨询台都配备了一名医生助理,负责将患者的症状以书面形式传达给人工智能医生“MedGPT” ,而真正的医生也在会诊系统中同步收到了患者的信息。这样一来AI医生与真人医生之间互不干涉,且条件基本一致,双方就能给出独立的判断。

  图3. 7名专家评审团成员

  在评审过程中,专家们也发现了一些意想不到的“惊喜”:

  比如,出现漏诊误诊的概率比较小。

  北大人民医院薛峰主任就发现,MedGPT通过多轮询问,根据患者脚底板疼痛症状,竟然在最后可以推断诊断出「有可能出现压迫颈神经」这样的结果。

  这也就是说,从知识储备上,AI医生其实可能高于一个经验不太丰富的医生。

  另外,MedGPT就诊时的“沉稳”表现也得到了点赞。

  中日友好医院心内科主任医师任景怡就表示:我觉得最好的一点是当诊断尚不明确时,MedGPT并不会轻易给出结论,而是要坚持通过继续问诊或检查收集更多信息。

  于是即便MedGPT还存在一定问题,她还是给了比真人医生还高的分数,并直言:这是里程碑的结果。

  图4. 任景怡教授打分结果

  对于AI是否会“抢医生的饭碗”,工作人员表示,“这次评测并不是人工智能与真实医生的竞争。开发MedGPT的目的是希望通过不断优化,让这位人工智能医生辅助真实医生进行会诊。”

  小编也尝试使用了MedGPT,确实可称得上数字化医疗的一次革新。AI技术方兴未艾,尤其是ChatGPT发布以后,各领域的“GPT”像雨后春笋般迅速成长。如此一来各领域的“真人”更要磨炼技能,避免被AI“抢饭碗”。(官网https://medgpt.co/)

  图5. MedGPT功能界面

  这是MedGPT的主界面,目前可以通过文字输入症状和患者信息,或者上传医学影像照片供MedGPT分析。

  图6. MedGPT“问诊”界面

  小编选择了其中的体检项目咨询,并描述患者是88岁的老年人,且具有“腰酸背痛腿抽筋,失眠健忘易劳累”的症状,选择让MedGPT用“机智”的语气回答,AI便会给出需要做“全身检查”的建议。

  图7. 真人医生和AI医生的特点比较

  目前AI在医疗领域的应用才刚兴起,很多方面不如真人医生“靠谱”,但正如任景怡教授所言,这是里程碑式的结果。AI引领风起云涌的时代已经悄然开始了。