急诊AI赢了主治医生？哈佛研究登上Science，藏着未来科创家的破局密码_科创资讯_科创新闻

急诊AI赢了主治医生？哈佛研究登上Science，藏着未来科创家的破局密码

魏家东

2026-05-08 19:01:07

0次

2026年4月30日，《Science》期刊上一篇由哈佛医学院、斯坦福大学等团队联合发布的重磅研究，给全球医疗圈投下“惊雷”——这是迄今最大规模的AI医疗对比研究，首次用未经预处理的真实患者病历检验AI临床推理能力，而非让AI在训练数据集里“背诵标准答案”。

研究结果颠覆认知：波士顿贝斯以色列女执事医疗中心的真实急诊场景中，OpenAI的o1模型诊断准确率达67.1%，远超两位资深内科主治医生的55.3%和50.0%；治疗方案制定上，AI得分89%，人类医生借助传统资源后的中位数仅34%，差距超两倍。

“AI取代医生”的论调瞬间刷屏，但冷静来看，这不是人机对决的胜负，而是医疗行业转型的信号，更是科创领域的指引。AI的核心是赋能而非取代，科创的关键则是让技术扎根真实需求、守住伦理底线。

硬核实测：六大场景比拼，AI凭何赢在临床实战？

这项研究的核心价值的是跳出“实验室刷题”，让o1模型与数百名医生在六种临床场景中全方位比对，全程采用未预处理的真实病历，直面病历混乱、信息不全的临床常态。

NEJM病例测试：碾压基准，超越GPT-4

研究采用《新英格兰医学杂志》（NEJM）自20世纪50年代起的143个临床病理会议病例（2012-2024年）——医疗领域公认的推理评估标杆。结果显示，o1-preview覆盖78.3%的正确病因，首个诊断即正确的比例达52%；若计入“非常接近”的诊断，比例飙升至97.9%。

与GPT-4对比更具说服力：70个重叠病例中，o1-preview 24.3%的病例表现更优，仅7.1%落后，而GPT-4整体准确率仅72.9%。此外，136例诊断检查选择测试中，o1-preview正确率达87.5%，11%的建议具极高临床价值，仅1.5%无帮助。

临床推理与治疗决策：大幅领先人类与GPT-4

临床推理书写评估中，20个NEJM Healer课程病例采用R-IDEA量表评分，o1-preview在80次评分中78次满分，远超GPT-4的47次、主治医师的28次和住院医师的16次。高风险“不能漏诊”识别中，o1-preview中位命中率92%，虽数值高于人类，但未达统计学显著差异。

治疗管理决策测试中，5个真实临床场景里，o1-preview中位得分89%，GPT-4仅42%，借助GPT-4的医生41%，使用传统资源的医生仅34%，AI优势显著。

急诊真实场景：盲评难分人机，分诊优势突出

最具突破性的是76名急诊真实患者测试，设置三个决策节点，AI与医生同步获取原始电子病历。分诊阶段（信息最少、最紧急），医生正确率仅50%-55%，AI达67%；信息增多后，医生准确率升至70%-79%，AI升至近82%。

盲评中，两位医生猜对诊断来源（AI或人类）的比例仅15.2%和3.1%，几乎无法区分。此外，6个未公开发布的标志性病例测试中，o1-preview中位得分97%，虽高于GPT-4的92%和人类的74%，但未达统计学显著差异。

研究共同第一作者Peter Brodeur直言：“传统选择题测试已无法评估AI进展，这项研究用真实场景重新定义了AI医疗的评估标准。”

争议与局限：AI赢了数据，赢不了医生的不可替代性

研究发酵后，急诊科医生Kristen Panthagani直言质疑：研究用内科医生与AI对比，而非急诊专科医生，类比“大语言模型赢皮肤科医生的神经外科考试”，缺乏说服力。

更关键的是，急诊核心是“快速识别致命风险”，而非“猜病名”——医生能通过患者面色、呼吸、痛苦表情等非文本信号判断危急情况，这是AI目前无法逾越的鸿沟。

研究也明确自身局限：仅测试AI解读文本数据的能力，未涉及非文本信号；病例集中在内科、急诊，未覆盖外科等专科；急诊核心是分诊和即时管理，AI无法替代医生现场处置。

《医疗机构人工智能应用与治理专家共识（2026版）》也明确，AI是辅助诊疗工具，医生拥有最终决策权，高风险环节不得无人监控，AI绝无可能独立行医。

行业震动：哈佛研究改写医疗规则，三大影响落地

抛开“取代”噪音，这项研究推动医疗行业从“经验驱动”向“技术赋能”转型，三大影响已逐步落地。

重构急诊模式，AI成“生死守门员”

急诊的核心痛点是“信息匮乏下的决策延迟”，而AI在分诊阶段表现最优。数据显示，近20%美国医生、16%英国医生已用AI辅助诊断，国内400余家医疗机构部署医疗AI，AI医院逐步落地。未来，人机协同将成常态：AI快速筛查、减少漏诊，医生聚焦精准判断与人文关怀。

倒逼行业规范，填补问责与评估空白

研究推动两大核心问题解决：AI误诊责任划分与评估标准升级。《共识》明确，算法缺陷导致的损害，医疗机构赔偿后可向厂商追偿，鼓励采购AI专项保险；传统评估方式失效，真实场景、多维度推理成为新核心。同时，医疗AI从“看图识字”向“深度推理”转型，大语言模型成新蓝海。

改变医生角色，推动人才培养升级

超80%美国医生已使用AI，AI将医生从繁琐的病历、文献工作中解放，让其专注患者沟通。同时，行业警惕“AI依赖”，规培保留传统诊疗技能考核，将AI使用能力纳入培训，医生角色从“知识储存者”转向“技术使用者、患者守护者”。

科创启示：从哈佛研究看未来科创方向

这项研究给科创家提供了清晰方向：医疗AI的风口，是扎根真实场景、解决实际问题、守住伦理底线。

真实场景是科创核心，拒绝“纸上谈兵”

哈佛研究的成功，在于“零预处理、全真实”，甚至用未公开发布病例防止AI“刷题”。这警示科创家，脱离临床真实需求的技术再先进也无价值，主动式慢病管理、AI赋能临床试验等细分需求，才是真正的蓝海。

人机协同是终极方向，拒绝“取代思维”

研究不支持“AI取代医生”，而是探索技术赋能。科创家应聚焦“AI+医生”的协同效应，让AI弥补人类信息处理的不足，医生发挥临床直觉与人文优势，实现“1+1>2”。

数据与伦理是立身之本，拒绝“野蛮生长”

医疗AI的核心是数据，脱敏、合规是底线。《共识》要求医疗AI本地化部署，患者数据迭代需授权，科创家需重视数据合规与AI“可解释性”，同时防范“AI幻觉”与医生过度依赖。

聚焦细分痛点，拒绝“大而全”

医疗AI红海是通用诊断，蓝海是细分场景。哈佛研究聚焦急诊分诊、临床推理等细分环节才取得突破，科创家应聚焦罕见病诊断、慢病管理等具体痛点，打造差异化优势。

技术有温度，科创有边界

哈佛这项研究，宣告人机协同时代正式来临。AI能在数据处理、临床推理上超越医生，却学不会人文关怀与现场处置；医生或许不如AI高效，却拥有不可复制的临床直觉与责任担当。

对医疗行业，这是转型信号，推动医疗更高效精准；对科创家，这是行动指南，提醒科创的核心是解决真实问题、守住伦理底线。未来，医疗的终极答案是“人类+AI”，科创的终极意义是赋能人类，让技术守护生命、让医疗更有温度。

参考资料：

1.https://www.science.org/doi/10.1126/science.adz4433

2.https://www.harvardmagazine.com/ai/ai-outperforms-doctors-diagnosis-harvard-study

3.https://www.ama-assn.org/system/files/physician-ai-sentiment-report.pdf

4.https://www.rcp.ac.uk/policy-and-campaigns/policy-documents/snapshot-of-uk-physicians-artificial-intelligence-in-healthcare/

Science 哈佛医学院斯坦福大学

上一篇：斯坦福AI惊天大重组！两大机构合并，李飞飞升维掌舵全校战略

下一篇：没有了

急诊AI赢了主治医生？哈佛研究登上Science，藏着未来科创家的破局密码

相关内容

热门资讯