哈佛新研究登《科学》:OpenAI推理模型急诊科诊断能力有望超越人类医生

🤖 由 文心大模型 生成的文章摘要

哈佛医学院与贝斯以色列女执事医疗中心联合完成的一项新研究在《科学》期刊发表,该研究显示OpenAI一款推理模型在真实急诊科临床场景中,诊断与制定治疗方案达到人类医生水平,多项测试中表现更优。

与传统受控基准测试不同,本次研究聚焦真实临床环境,重点测试模型在信息不完整、不规整、动态变化的急诊场景下的推理能力。研究覆盖急诊分诊至住院全流程,模型每一步仅可使用当时已有的电子健康记录数据,不获取后续信息。

在一例肺栓塞患者诊疗中,患者治疗后一度好转又恶化,接诊医生最初怀疑药物失效,而该AI模型依据同期可调用的病历信息,提示患者可能存在狼疮病史,狼疮作为自身免疫病可能引发心脏炎症,后续检查证实模型判断准确。

多环节测试结果显示,在同等信息限制条件下,该模型表现超越两名经验丰富的医生;在《新英格兰医学杂志》临床病例报告等复杂诊断推理挑战中,模型也优于大规模医生对照组。

贝斯以色列女执事医疗中心研究人员亚当・罗德曼表示,该模型能处理急诊科混乱的真实世界数据,具备临床诊断实用价值。哈佛医学院助理教授拉杰・曼赖称,模型表现大幅超越医生基准组,在鉴别诊断环节优势尤为突出,可同步考量多种疾病可能并逐步缩小范围,解决了过往大模型在信息模糊时推理不稳定的问题。

研究同时指出重要局限:模型仅依赖文本病历,无法处理影像、声音及非语言线索,而这类信息对临床诊疗至关重要。研究团队强调,该成果并非证明AI可取代医生,而是证实AI可成为高效临床决策支持工具,适配急诊快节奏、信息有限的诊疗场景。

此项研究是医疗AI领域重要进展,但落地临床仍需攻克多重问题。研究团队表示,下一步将推进模型进入真实临床环境开展严谨试验,不仅验证诊断准确性,更要评估其能否切实改善患者诊疗结局。