OpenAI在医疗健康领域的突破性进展
7月,OpenAI与非洲Penda Health合作发布了一项涵盖40,000次门诊的突破性临床研究,首次证实基于ChatGPT的AI辅助系统能帮助基层医生在资源匮乏的诊所中减少诊疗错误。
Penda Health这项质量改进研究针对基层医疗中常见但可预防的医疗差错。2025年,该机构开发的”AI Consult”系统作为临床工作流中的实时安全网运作——当医生在电子病历系统(EHR)中记录诊疗过程时,经去标识化的笔记会发送至OpenAI API进行分析。AI将反馈三类信号:无风险(绿色)、中度风险(黄色)或安全关键问题(红色),医生据此修正诊断决策。
该系统深度适配非洲本地环境,整合了当地医疗指南与标准流程。作为社会企业,Penda Health还为使用AI提升诊疗质量的医生提供培训与激励。
研究对比了两组医生(使用/未使用AI)在病史采集、检查、诊断和治疗方面的表现,AI组所有错误类别均显著下降:
· 病史采集错误↓32%
· 检查错误↓10%
· 诊断错误↓16%
· 治疗错误↓13%
在至少出现一项红色警报的病例中,AI组将诊断错误减少了31%,治疗错误减少了18%,这清楚地证明了生成式人工智能在提高初级医疗质量方面的有效性。
错误解决率的追踪显示:初始阶段两组错误率相近(35-40%),但AI组最终降至20%,而非AI组仍维持在40%左右(参见下图)。
▲ 一项验证生成式AI持续降低临床诊疗错误率的基层医疗研究(来源:OpenAI Blog)
AI+医疗健康7月的一些进展
Berkhout WEM、van Wijngaarden JJ、Workum JD 等。重症监护病房人工智能应用的实施:系统综述。《美国医学会杂志网络开放》,2025;8(7):e2522866。
在这项涵盖1263项研究的系统综述中,74%的研究仍处于早期开发阶段,仅有25项(2%)进展至临床整合阶段(技术就绪度≥6级),尚无研究达到全面实施阶段(技术就绪度9级)。尽管约半数生成式人工智能模型达到了较高的技术就绪度(14项[47%]达到5级),但均未实现临床整合。医学文献亟需范式转变——从回顾性验证转向人工智能的实际应用和前瞻性测试,以产生切实的临床影响。

Park J、Patterson J、Acitores Cortina JM 等。利用大语言模型生成的嵌入增强基于电子健康记录的胰腺癌预测。《npj数字医学》,8:465(2025)。
胰腺癌(PC)通常诊断较晚,因其早期症状不明显且缺乏有效的筛查工具,遗传或家族因素仅能解释约10%的病例。利用纵向电子健康记录(EHR)数据可能为早期检测提供新途径。我们开发了一种预测模型,利用大语言模型(LLM)对疾病名称生成的嵌入来增强EHR数据的学习能力。在哥伦比亚大学医学中心和西达赛奈医疗中心两个研究地点,LLM嵌入将6-12个月预测的AUROC(受试者工作特征曲线下面积)分别从0.60提升至0.67、从0.82提升至0.86。排除诊断前0-3个月的数据后,AUROC进一步提高至0.82和0.89。该模型的阳性预测值(0.141)高于传统风险因素(0.004),并识别出许多无已知风险因素或遗传变异的胰腺癌患者。这些发现表明,基于EHR的模型可能成为识别高危人群的独立方法。
Lammert J、Pfarr N、Kuligin L 等。大语言模型驱动的数字孪生在罕见妇科肿瘤精准医疗中的应用。《npj数字医学》,8:420(2025)。
罕见妇科肿瘤(RGTs)因其发病率低和异质性强,带来重大临床挑战。本研究探索利用大语言模型(LLMs)构建数字孪生,以支持罕见妇科肿瘤的精准医疗。我们的概念验证数字孪生系统整合了来自机构和已发表病例(n=21)的临床和生物标志物数据,以及文献衍生数据(n=655篇文献),为转移性子宫癌肉瘤制定个性化治疗方案,识别出传统单一来源分析可能遗漏的治疗选择。LLM驱动的数字孪生能有效模拟个体患者的疾病轨迹。将肿瘤定义从基于器官转向基于生物学,可实现个性化护理,有望改善罕见妇科肿瘤的管理并提升患者预后。
Leng Y、He Y、Amini S 等。基于GPT-4o的框架用于电子健康记录中认知障碍阶段的识别。《npj数字医学》,8:401(2025)。
现成的电子健康记录(EHRs)包含有价值的认知健康数据,但其中大部分嵌入在非结构化临床笔记中。为解决这一问题,我们开发了一个基于GPT-4o的认知障碍(CI)阶段分类框架,利用纵向患者病史总结、多步骤推理和置信感知决策。在麻省总医院布里格姆医疗中心(MGB)的1002名 Medicare 患者的165,926份病例上进行评估,该GPT-4o框架在认知障碍阶段分类中实现了高精度(加权Cohen’s kappa=0.95,Spearman相关系数=0.93),优于其他两种语言模型(加权Cohen’s kappa 0.82–0.85)。在769名记忆门诊患者的独立数据集上,该框架对临床痴呆评定量表(CDR)评分的加权Cohen’s kappa为0.83。最后,为确保可靠性和安全性,我们设计了一个集成GPT-4o框架与临床医生监督的交互式AI代理(agent)。这种协作方法有望在真实临床环境中促进认知障碍的诊断。
Zhu M、Lin H、Jiang J 等。基于临床肿瘤学数据训练的大语言模型预测癌症进展。《npj数字医学》,8:397(2025)。
亚专科知识壁垒限制了大语言模型(LLMs)在肿瘤学中的应用。我们介绍Woollie,这是一种开源的肿瘤学专用LLM,基于纪念斯隆凯特琳癌症中心(MSK)的真实世界数据训练,涵盖肺癌、乳腺癌、前列腺癌、胰腺癌和结直肠癌,并使用加州大学旧金山分校(UCSF)的数据进行外部验证。Woollie在医学基准测试中表现优于ChatGPT,并在八项非医学基准测试中表现出色。通过分析4002名患者的39,319份放射学影象记录,其在MSK数据上预测癌症进展的总体AUROC为0.97,其中胰腺癌的AUROC达0.98。在UCSF数据上,总体AUROC为0.88,肺癌检测AUROC达0.95。作为首个跨机构验证的肿瘤学专用LLM,Woollie在不同癌症类型中表现出高精度和一致性,凸显其在癌症分析中的潜力。
Lee SA、Jain S、Chen A 等。利用多源电子健康记录数据的伪笔记支持临床决策。《npj数字医学》,8:394(2025)。
在本研究中,我们提出电子健康记录多嵌入模型(MEME),这是一种用于临床决策支持的深度学习框架,可处理异质电子健康记录数据。MEME首先将表格型电子健康记录转换为“伪笔记”,也就是将非文本形式的医疗数据(如表格型电子健康记录中的结构化数据)转换而成的类文本格式内容。它并非真实的临床笔记,而是模拟文本形式以便于利用语言模型进行处理和分析,减少了跨电子健康记录系统的概念协调需求,并允许使用任何最先进的开源语言模型。该模型对电子健康记录的不同领域分别进行嵌入,然后使用自注意力机制学习这些多嵌入的上下文重要性。在一项包含400,019次急诊科就诊的研究中,MEME成功预测了急诊科处置结果、出院地点、重症监护需求和死亡率。其性能优于传统机器学习模型(逻辑回归、随机森林、XGBoost、多层感知器)、电子健康记录基础模型(EHR-shot、MC-BEC、MSEM)和GPT-4提示策略。由于文本序列化,MEME在外部非标准化电子健康记录数据库中也表现出强大的少样本学习能力。
Naved BA、Ravishankar S、Colbert GE 等。大语言模型对美国医疗系统中患者自我报告症状和需求的分类。《npj数字医学》,8:390(2025)。
美国医疗系统每月网站访问量高达2亿次。将患者搜索请求与适当的工作流程关联需要准确分类。我们对美国约15家医疗系统网站的搜索数据进行标注、特征分析,并用于训练和评估多标签、多类别深度神经网络。该分类器已部署到覆盖美国所有50个州患者的医疗系统,并与大语言模型进行了比较。训练数据集包含504个独特类别,模型在这些类别中的分类性能因类别数量而异,各指标范围从约0.90到0.70。若提供完整类别列表,GPT-4表现相似,并在补充监督分类器性能方面显示出价值。本研究收集的数据揭示了患者搜索的特征,是迄今为止美国医疗系统中规模最大的多中心全国性研究。
扫描二维码
关注我们
央视频号 : 生命新知
抖音号:生命新知