
2026年4月30日,《Science》期刊上一篇由哈佛医学院、斯坦福大学等团队联合发布的重磅研究,给全球医疗圈投下“惊雷”——这是迄今最大规模的AI医疗对比研究,首次用未经预处理的真实患者病历检验AI临床推理能力,而非让AI在训练数据集里“背诵标准答案”。
研究结果颠覆认知:波士顿贝斯以色列女执事医疗中心的真实急诊场景中,OpenAI的o1模型诊断准确率达67.1%,远超两位资深内科主治医生的55.3%和50.0%;治疗方案制定上,AI得分89%,人类医生借助传统资源后的中位数仅34%,差距超两倍。“AI取代医生”的论调瞬间刷屏,但冷静来看,这不是人机对决的胜负,而是医疗行业转型的信号,更是科创领域的指引。AI的核心是赋能而非取代,科创的关键则是让技术扎根真实需求、守住伦理底线。
这项研究的核心价值的是跳出“实验室刷题”,让o1模型与数百名医生在六种临床场景中全方位比对,全程采用未预处理的真实病历,直面病历混乱、信息不全的临床常态。研究采用《新英格兰医学杂志》(NEJM)自20世纪50年代起的143个临床病理会议病例(2012-2024年)——医疗领域公认的推理评估标杆。结果显示,o1-preview覆盖78.3%的正确病因,首个诊断即正确的比例达52%;若计入“非常接近”的诊断,比例飙升至97.9%。与GPT-4对比更具说服力:70个重叠病例中,o1-preview 24.3%的病例表现更优,仅7.1%落后,而GPT-4整体准确率仅72.9%。此外,136例诊断检查选择测试中,o1-preview正确率达87.5%,11%的建议具极高临床价值,仅1.5%无帮助。临床推理书写评估中,20个NEJM Healer课程病例采用R-IDEA量表评分,o1-preview在80次评分中78次满分,远超GPT-4的47次、主治医师的28次和住院医师的16次。高风险“不能漏诊”识别中,o1-preview中位命中率92%,虽数值高于人类,但未达统计学显著差异。治疗管理决策测试中,5个真实临床场景里,o1-preview中位得分89%,GPT-4仅42%,借助GPT-4的医生41%,使用传统资源的医生仅34%,AI优势显著。最具突破性的是76名急诊真实患者测试,设置三个决策节点,AI与医生同步获取原始电子病历。分诊阶段(信息最少、最紧急),医生正确率仅50%-55%,AI达67%;信息增多后,医生准确率升至70%-79%,AI升至近82%。盲评中,两位医生猜对诊断来源(AI或人类)的比例仅15.2%和3.1%,几乎无法区分。此外,6个未公开发布的标志性病例测试中,o1-preview中位得分97%,虽高于GPT-4的92%和人类的74%,但未达统计学显著差异。研究共同第一作者Peter Brodeur直言:“传统选择题测试已无法评估AI进展,这项研究用真实场景重新定义了AI医疗的评估标准。”研究发酵后,急诊科医生Kristen Panthagani直言质疑:研究用内科医生与AI对比,而非急诊专科医生,类比“大语言模型赢皮肤科医生的神经外科考试”,缺乏说服力。更关键的是,急诊核心是“快速识别致命风险”,而非“猜病名”——医生能通过患者面色、呼吸、痛苦表情等非文本信号判断危急情况,这是AI目前无法逾越的鸿沟。研究也明确自身局限:仅测试AI解读文本数据的能力,未涉及非文本信号;病例集中在内科、急诊,未覆盖外科等专科;急诊核心是分诊和即时管理,AI无法替代医生现场处置。《医疗机构人工智能应用与治理专家共识(2026版)》也明确,AI是辅助诊疗工具,医生拥有最终决策权,高风险环节不得无人监控,AI绝无可能独立行医。抛开“取代”噪音,这项研究推动医疗行业从“经验驱动”向“技术赋能”转型,三大影响已逐步落地。急诊的核心痛点是“信息匮乏下的决策延迟”,而AI在分诊阶段表现最优。数据显示,近20%美国医生、16%英国医生已用AI辅助诊断,国内400余家医疗机构部署医疗AI,AI医院逐步落地。未来,人机协同将成常态:AI快速筛查、减少漏诊,医生聚焦精准判断与人文关怀。研究推动两大核心问题解决:AI误诊责任划分与评估标准升级。《共识》明确,算法缺陷导致的损害,医疗机构赔偿后可向厂商追偿,鼓励采购AI专项保险;传统评估方式失效,真实场景、多维度推理成为新核心。同时,医疗AI从“看图识字”向“深度推理”转型,大语言模型成新蓝海。超80%美国医生已使用AI,AI将医生从繁琐的病历、文献工作中解放,让其专注患者沟通。同时,行业警惕“AI依赖”,规培保留传统诊疗技能考核,将AI使用能力纳入培训,医生角色从“知识储存者”转向“技术使用者、患者守护者”。这项研究给科创家提供了清晰方向:医疗AI的风口,是扎根真实场景、解决实际问题、守住伦理底线。哈佛研究的成功,在于“零预处理、全真实”,甚至用未公开发布病例防止AI“刷题”。这警示科创家,脱离临床真实需求的技术再先进也无价值,主动式慢病管理、AI赋能临床试验等细分需求,才是真正的蓝海。研究不支持“AI取代医生”,而是探索技术赋能。科创家应聚焦“AI+医生”的协同效应,让AI弥补人类信息处理的不足,医生发挥临床直觉与人文优势,实现“1+1>2”。医疗AI的核心是数据,脱敏、合规是底线。《共识》要求医疗AI本地化部署,患者数据迭代需授权,科创家需重视数据合规与AI“可解释性”,同时防范“AI幻觉”与医生过度依赖。医疗AI红海是通用诊断,蓝海是细分场景。哈佛研究聚焦急诊分诊、临床推理等细分环节才取得突破,科创家应聚焦罕见病诊断、慢病管理等具体痛点,打造差异化优势。哈佛这项研究,宣告人机协同时代正式来临。AI能在数据处理、临床推理上超越医生,却学不会人文关怀与现场处置;医生或许不如AI高效,却拥有不可复制的临床直觉与责任担当。对医疗行业,这是转型信号,推动医疗更高效精准;对科创家,这是行动指南,提醒科创的核心是解决真实问题、守住伦理底线。未来,医疗的终极答案是“人类+AI”,科创的终极意义是赋能人类,让技术守护生命、让医疗更有温度。1.https://www.science.org/doi/10.1126/science.adz44332.https://www.harvardmagazine.com/ai/ai-outperforms-doctors-diagnosis-harvard-study3.https://www.ama-assn.org/system/files/physician-ai-sentiment-report.pdf4.https://www.rcp.ac.uk/policy-and-campaigns/policy-documents/snapshot-of-uk-physicians-artificial-intelligence-in-healthcare/