哈佛新研究登《科学》：OpenAI推理模型急诊科诊断能力有望超越人类医生

🤖 由文心大模型生成的文章摘要

哈佛医学院与贝斯以色列女执事医疗中心联合完成的一项新研究在《科学》期刊发表，该研究显示OpenAI一款推理模型在真实急诊科临床场景中，诊断与制定治疗方案达到人类医生水平，多项测试中表现更优。

与传统受控基准测试不同，本次研究聚焦真实临床环境，重点测试模型在信息不完整、不规整、动态变化的急诊场景下的推理能力。研究覆盖急诊分诊至住院全流程，模型每一步仅可使用当时已有的电子健康记录数据，不获取后续信息。

在一例肺栓塞患者诊疗中，患者治疗后一度好转又恶化，接诊医生最初怀疑药物失效，而该AI模型依据同期可调用的病历信息，提示患者可能存在狼疮病史，狼疮作为自身免疫病可能引发心脏炎症，后续检查证实模型判断准确。

多环节测试结果显示，在同等信息限制条件下，该模型表现超越两名经验丰富的医生；在《新英格兰医学杂志》临床病例报告等复杂诊断推理挑战中，模型也优于大规模医生对照组。

贝斯以色列女执事医疗中心研究人员亚当・罗德曼表示，该模型能处理急诊科混乱的真实世界数据，具备临床诊断实用价值。哈佛医学院助理教授拉杰・曼赖称，模型表现大幅超越医生基准组，在鉴别诊断环节优势尤为突出，可同步考量多种疾病可能并逐步缩小范围，解决了过往大模型在信息模糊时推理不稳定的问题。

研究同时指出重要局限：模型仅依赖文本病历，无法处理影像、声音及非语言线索，而这类信息对临床诊疗至关重要。研究团队强调，该成果并非证明AI可取代医生，而是证实AI可成为高效临床决策支持工具，适配急诊快节奏、信息有限的诊疗场景。

此项研究是医疗AI领域重要进展，但落地临床仍需攻克多重问题。研究团队表示，下一步将推进模型进入真实临床环境开展严谨试验，不仅验证诊断准确性，更要评估其能否切实改善患者诊疗结局。

相关文章