急诊AI赢了主治医生?哈佛研究登上Science,藏着未来科创家的破局密码
魏家东
2026-05-08 19:01:07
0

image.png


2026年4月30日,《Science》期刊上一篇由哈佛医学院、斯坦福大学等团队联合发布的重磅研究,给全球医疗圈投下“惊雷”——这是迄今最大规模的AI医疗对比研究,首次用未经预处理的真实患者病历检验AI临床推理能力,而非让AI在训练数据集里“背诵标准答案”。

image.png

研究结果颠覆认知:波士顿贝斯以色列女执事医疗中心的真实急诊场景中,OpenAI的o1模型诊断准确率达67.1%,远超两位资深内科主治医生的55.3%和50.0%;治疗方案制定上,AI得分89%,人类医生借助传统资源后的中位数仅34%,差距超两倍。
“AI取代医生”的论调瞬间刷屏,但冷静来看,这不是人机对决的胜负,而是医疗行业转型的信号,更是科创领域的指引。AI的核心是赋能而非取代,科创的关键则是让技术扎根真实需求、守住伦理底线。

image.png




01


硬核实测:六大场景比拼,AI凭何赢在临床实战?


这项研究的核心价值的是跳出“实验室刷题”,让o1模型与数百名医生在六种临床场景中全方位比对,全程采用未预处理的真实病历,直面病历混乱、信息不全的临床常态。


NEJM病例测试:碾压基准,超越GPT-4
研究采用《新英格兰医学杂志》(NEJM)自20世纪50年代起的143个临床病理会议病例(2012-2024年)——医疗领域公认的推理评估标杆。结果显示,o1-preview覆盖78.3%的正确病因,首个诊断即正确的比例达52%;若计入“非常接近”的诊断,比例飙升至97.9%。
与GPT-4对比更具说服力:70个重叠病例中,o1-preview 24.3%的病例表现更优,仅7.1%落后,而GPT-4整体准确率仅72.9%。此外,136例诊断检查选择测试中,o1-preview正确率达87.5%,11%的建议具极高临床价值,仅1.5%无帮助。



临床推理与治疗决策:大幅领先人类与GPT-4
临床推理书写评估中,20个NEJM Healer课程病例采用R-IDEA量表评分,o1-preview在80次评分中78次满分,远超GPT-4的47次、主治医师的28次和住院医师的16次。高风险“不能漏诊”识别中,o1-preview中位命中率92%,虽数值高于人类,但未达统计学显著差异。

治疗管理决策测试中,5个真实临床场景里,o1-preview中位得分89%,GPT-4仅42%,借助GPT-4的医生41%,使用传统资源的医生仅34%,AI优势显著。



急诊真实场景:盲评难分人机,分诊优势突出
最具突破性的是76名急诊真实患者测试,设置三个决策节点,AI与医生同步获取原始电子病历。分诊阶段(信息最少、最紧急),医生正确率仅50%-55%,AI达67%;信息增多后,医生准确率升至70%-79%,AI升至近82%。

盲评中,两位医生猜对诊断来源(AI或人类)的比例仅15.2%和3.1%,几乎无法区分。此外,6个未公开发布的标志性病例测试中,o1-preview中位得分97%,虽高于GPT-4的92%和人类的74%,但未达统计学显著差异。
图片
研究共同第一作者Peter Brodeur直言:“传统选择题测试已无法评估AI进展,这项研究用真实场景重新定义了AI医疗的评估标准。”


02


争议与局限:AI赢了数据,赢不了医生的不可替代性


研究发酵后,急诊科医生Kristen Panthagani直言质疑:研究用内科医生与AI对比,而非急诊专科医生,类比“大语言模型赢皮肤科医生的神经外科考试”,缺乏说服力。

更关键的是,急诊核心是“快速识别致命风险”,而非“猜病名”——医生能通过患者面色、呼吸、痛苦表情等非文本信号判断危急情况,这是AI目前无法逾越的鸿沟。
研究也明确自身局限:仅测试AI解读文本数据的能力,未涉及非文本信号;病例集中在内科、急诊,未覆盖外科等专科;急诊核心是分诊和即时管理,AI无法替代医生现场处置。
图片
《医疗机构人工智能应用与治理专家共识(2026版)》也明确,AI是辅助诊疗工具,医生拥有最终决策权,高风险环节不得无人监控,AI绝无可能独立行医。


03


行业震动:哈佛研究改写医疗规则,三大影响落地


抛开“取代”噪音,这项研究推动医疗行业从“经验驱动”向“技术赋能”转型,三大影响已逐步落地。


重构急诊模式,AI成“生死守门员”
急诊的核心痛点是“信息匮乏下的决策延迟”,而AI在分诊阶段表现最优。数据显示,近20%美国医生、16%英国医生已用AI辅助诊断,国内400余家医疗机构部署医疗AI,AI医院逐步落地。未来,人机协同将成常态:AI快速筛查、减少漏诊,医生聚焦精准判断与人文关怀。


倒逼行业规范,填补问责与评估空白
研究推动两大核心问题解决:AI误诊责任划分与评估标准升级。《共识》明确,算法缺陷导致的损害,医疗机构赔偿后可向厂商追偿,鼓励采购AI专项保险;传统评估方式失效,真实场景、多维度推理成为新核心。同时,医疗AI从“看图识字”向“深度推理”转型,大语言模型成新蓝海。


改变医生角色,推动人才培养升级
超80%美国医生已使用AI,AI将医生从繁琐的病历、文献工作中解放,让其专注患者沟通。同时,行业警惕“AI依赖”,规培保留传统诊疗技能考核,将AI使用能力纳入培训,医生角色从“知识储存者”转向“技术使用者、患者守护者”。


04


科创启示:从哈佛研究看未来科创方向


这项研究给科创家提供了清晰方向:医疗AI的风口,是扎根真实场景、解决实际问题、守住伦理底线。


真实场景是科创核心,拒绝“纸上谈兵”
哈佛研究的成功,在于“零预处理、全真实”,甚至用未公开发布病例防止AI“刷题”。这警示科创家,脱离临床真实需求的技术再先进也无价值,主动式慢病管理、AI赋能临床试验等细分需求,才是真正的蓝海。


人机协同是终极方向,拒绝“取代思维”
研究不支持“AI取代医生”,而是探索技术赋能。科创家应聚焦“AI+医生”的协同效应,让AI弥补人类信息处理的不足,医生发挥临床直觉与人文优势,实现“1+1>2”。


数据与伦理是立身之本,拒绝“野蛮生长”
医疗AI的核心是数据,脱敏、合规是底线。《共识》要求医疗AI本地化部署,患者数据迭代需授权,科创家需重视数据合规与AI“可解释性”,同时防范“AI幻觉”与医生过度依赖。


聚焦细分痛点,拒绝“大而全”
医疗AI红海是通用诊断,蓝海是细分场景。哈佛研究聚焦急诊分诊、临床推理等细分环节才取得突破,科创家应聚焦罕见病诊断、慢病管理等具体痛点,打造差异化优势。


05


技术有温度,科创有边界


哈佛这项研究,宣告人机协同时代正式来临。AI能在数据处理、临床推理上超越医生,却学不会人文关怀与现场处置;医生或许不如AI高效,却拥有不可复制的临床直觉与责任担当。
对医疗行业,这是转型信号,推动医疗更高效精准;对科创家,这是行动指南,提醒科创的核心是解决真实问题、守住伦理底线。未来,医疗的终极答案是“人类+AI”,科创的终极意义是赋能人类,让技术守护生命、让医疗更有温度。
参考资料:
1.https://www.science.org/doi/10.1126/science.adz4433
2.https://www.harvardmagazine.com/ai/ai-outperforms-doctors-diagnosis-harvard-study
3.https://www.ama-assn.org/system/files/physician-ai-sentiment-report.pdf
4.https://www.rcp.ac.uk/policy-and-campaigns/policy-documents/snapshot-of-uk-physicians-artificial-intelligence-in-healthcare/

相关内容

急诊AI赢了主治医生?哈佛...
“AI取代医生”的论调瞬间刷屏,但冷静来看,这不是人机对决的胜负,...
2026-05-08 19:01:07

热门资讯

斯坦福423页AI报告出炉:中... 中美AI格局趋平,意味着技术壁垒正在降低,中国创业者迎来前所未有的平等竞争机会。
急诊AI赢了主治医生?哈佛研究... “AI取代医生”的论调瞬间刷屏,但冷静来看,这不是人机对决的胜负,而是医疗行业转型的信号,更是科创领...
斯坦福AI惊天大重组!两大机构... AI时代,大学的核心竞争力,是把“人、算力、数据、思想”高效组织起来的能力。
洗澡式出海行不通,Manus收... AI时代,科创家面临的不是“全球化vs本土化”的单选题,而是“如何在合规前提下,平衡开放与自主、商业...
诺奖得主哈萨比斯揭秘下一轮风口... 未来十年,是AI与深科技融合爆发的十年,也是科创者逆袭的黄金十年。
下一个科技制高点:脑机接口!科... 从“北脑一号”直播到政策密集落地,中国脑机接口产业正迎来黄金发展期。对科创家而言,机遇不在“追风口”...
黄仁勋最怕的事,被DeepSe... DeepSeek V4的发布,不是一次简单的模型升级,而是中国AI产业的“成人礼”。
中国量子科技全景地图:从实验室... 中国量子科技已从“技术探索期”迈入“产业爆发期”。
一文读懂世界模型:重塑AI格局... 2026年,是世界模型的爆发元年,它正在改变AI的发展方向,也正在重构很多行业的格局。
三大榜单看透中国科创版图:北有... 科研实力是根基,创投活跃是催化剂,独角兽爆发是结果。