> 技术文档 > 微软AI医生来袭:MAI-DxO实现四倍于人类医生的诊断准确率

微软AI医生来袭:MAI-DxO实现四倍于人类医生的诊断准确率


迈向医疗超级智能之路

微软人工智能团队分享了一项研究,展示了人工智能如何逐步调查和解决医学上最复杂的诊断挑战——专家医生难以回答的病例

以《新英格兰医学杂志》每周发布的真实病例记录为基准,可以发现微软人工智能诊断协调器(MAI-DxO) 对NEJM 病例的诊断准确率高达85%,这一准确率比经验丰富的医生高出四倍以上。 MAI-DxO 还能比医生更经济高效地获得正确诊断。相关论文如下:
paper:Sequential Diagnosis with Language Models
论文亮点:

  1. 📄 为模拟真实世界的迭代诊断过程并超越静态评估,本文引入了基于 NEJM-CPC 病例的 Sequential Diagnosis Benchmark (SDBench)。
  2. 🧠 研究者提出了 MAI Diagnostic Orchestrator (MAI-DxO),一个模拟医生团队并指导 AI 系统进行迭代和高价值诊断决策的编排框架。
  3. ✨ 在 SDBench 上,MAI-DxO 显著超越了现有大型语言模型和医生,在提高诊断准确性的同时大幅降低了成本,且效果对多种基础模型(如 OpenAI, Gemini, Claude, Grok, DeepSeek, Llama)具有通用性。
    微软AI医生来袭:MAI-DxO实现四倍于人类医生的诊断准确率

前言

随着医疗保健需求的持续增长,成本却以难以承受的速度上涨,数十亿人面临着改善健康的多重障碍——包括诊断不准确和延误。越来越多的人开始使用数字工具寻求医疗建议和支持。在微软的必应和Copilot 等AI 消费产品中,每天看到超过5000 万次与健康相关的会话。从初次咨询膝盖疼痛到深夜搜索紧急护理诊所,搜索引擎和AI 伙伴正迅速成为医疗保健领域的新前线。

希望提供更多帮助,并相信生成式人工智能能够带来变革。因此,在2024 年底在Microsoft AI 中启动了一项专门的消费者健康项目,由临床医生、设计师、工程师和人工智能科学家领导。该项目是对微软更广泛的健康计划的补充,并巩固了对合作与创新的长期承诺。现有的解决方案包括有助于加速和改善放射学工作流程的RAD-DINO,以及为临床医生提供的开创性语音优先AI 助手Microsoft Dragon Copilot。

要想让 AI 发挥作用,临床医生和患者都必须能够信赖它的性能。这正是全新基准和 AI 协调器的意义所在。

医疗案例挑战和基准

在美国,医生要想行医,需要通过美国医师执照考试 (USMLE),这是一项严格且标准化的临床知识和决策评估考试。USMLE 的题目是最早用于评估医学领域 AI 系统的基准之一,它提供了一种结构化的方式来比较模型性能——既可以相互比较,也可以与人类临床医生进行比较。

短短三年间,生成式人工智能已发展到在美国医师执照考试(USMLE)及类似考试中取得近乎完美的成绩。但这些考试主要依赖多项选择题,而这些题目更注重记忆而非深入理解。通过将医学简化为多项选择题的一次性答案,此类基准测试夸大了人工智能系统的表面能力,并掩盖了它们的局限性。

在微软人工智能 (Microsoft AI),致力于提升和评估临床推理能力。为了突破多项选择题的局限,专注于序贯诊断,这是现实世界医疗决策的基石。在这个过程中,临床医生从患者的初始就诊开始,然后反复选择问题和诊断测试,最终得出诊断结果。例如,如果患者出现咳嗽和发烧症状,临床医生可能需要安排并评估血液检查和胸部 X 光检查,然后才能确定是否确诊为肺炎。

全球领先的医学期刊之一《新英格兰医学杂志》(NEJM)每周都会发表麻省总医院的病例记录,以详尽的叙述形式呈现患者的诊疗历程。这些病例是临床医学中诊断最复杂、智力要求最高的病例之一,通常需要多位专家的诊疗和多项诊断测试才能得出确诊。

AI 的表现如何?为了解答这个问题,根据《新英格兰医学杂志》 (NEJM) 的病例系列创建了交互式病例挑战,称之为“序贯诊断基准”(SD Bench)。该基准将 304 例近期《新英格兰医学杂志》病例转化为分步诊断,模型(或人类医生)可以迭代提问并安排检查。随着新信息的出现,模型或临床医生会更新其推理,逐步缩小诊断范围。然后,可以将该诊断与《新英格兰医学杂志》上发表的金标准结果进行比较。
微软AI医生来袭:MAI-DxO实现四倍于人类医生的诊断准确率

每项请求的调查也会产生(虚拟)成本,反映现实世界的医疗保健支出。这使能够从两个关键维度评估绩效:诊断准确性和资源支出。您可以观看这段简短的视频,了解人工智能系统如何应对这些挑战。

获得正确的诊断

针对 304 例 NEJM 病例评估了一套全面的前沿生成式 AI 模型。测试的基础模型包括 GPT、Llama、Claude、Gemini、Grok 和 DeepSeek。  
微软AI医生来袭:MAI-DxO实现四倍于人类医生的诊断准确率

除了基准测试之外,还开发了微软AI 诊断协调器 (MAI-DxO),该系统旨在模拟由采用不同诊断方法的医生组成的虚拟专家组协作解决诊断案例。协调多种语言模型对于管理复杂的临床工作流程至关重要。与单个模型相比,协调器可以更有效地整合各种数据源,同时还能增强安全性、透明度和适应性,以应对不断变化的医疗需求。这种与模型无关的方法提高了可审计性和弹性,而这恰恰是高风险、快速发展的临床环境中的关键属性。

MAI-Dx Orchestrator 将任何语言模型转变为临床医生的虚拟小组:它可以询问后续问题、安排测试或提供诊断,然后运行成本检查并验证其自身的推理,然后再决定是否继续。

MAI-DxO 提升了测试的每个模型的诊断性能。性能最佳的设置是 MAI-DxO 与 OpenAI 的 o3 搭配使用,正确解决了 85.5% 的 NEJM 基准病例。为了进行比较,还评估了来自美国和英国的 21 位执业医师,每位医师都有 5 至 20 年的临床经验。在相同的任务中,这些专家在已完成病例中的平均准确率为 20%。

MAI-DxO 可配置,使其能够在既定的成本约束下运行。这使得它能够清晰地探索诊断决策中固有的成本与价值权衡。如果没有这些约束,AI 系统可能会默认安排所有可能的检测,而不管成本、患者不适或诊疗延误。重要的是,发现 MAI-DxO比医生或任何受测的单个基础模型 同时实现了更高的诊断准确率和更低的总体检测成本。
微软AI医生来袭:MAI-DxO实现四倍于人类医生的诊断准确率

人工智能诊断代理的准确率和每例平均诊断测试成本比较。表现最佳的代理出现在左上象限,反映出更高的准确率和更低的成本。下方虚线表示最佳单个基础模型的性能范围。紫线追踪了 MAI-DxO 在不同配置下的性能。红叉表示 21 位执业医师的平均表现。
微软AI医生来袭:MAI-DxO实现四倍于人类医生的诊断准确率

下一步是什么?

医生通常以其专业知识的广度或深度为特征。全科医生,例如家庭医生,负责治疗跨年龄段、跨器官系统的多种疾病。专科医生,例如风湿病学家,则专注于单一系统、疾病领域甚至特定病症。然而,没有哪位医生能够涵盖《新英格兰医学杂志》病例系列的全部复杂性。而人工智能则无需面对这种取舍。它可以兼顾专业知识的广度和深度,展现出超越任何个体医生的临床推理能力,在临床推理的诸多方面都超越了任何一位医生。

这种推理方式有可能重塑医疗保健。人工智能可以让患者自主管理日常护理,并为临床医生提供针对复杂病例的高级决策支持。的研究结果还表明,人工智能可以减少不必要的医疗成本。美国医疗支出已接近GDP的20%,其中估计高达25%被浪费——对患者预后影响甚微。

当然,的研究也存在一些重要的局限性。尽管 MAI-DxO 在应对最复杂的诊断挑战方面表现出色,但仍需进一步测试以评估其在更常见的日常诊疗中的表现。研究中的临床医生在工作中无法接触同事、教科书,甚至无法使用生成式人工智能,而这些在他们日常的临床实践中可能都存在。这样做是为了能够与原始人类的表现进行公平的比较。

这项工作的一个创新之处在于它关注成本。虽然现实世界的医疗成本因地域和系统而异,并且包含许多未考虑的下游因素,但对所有接受评估的代理人和医生采用一致的方法,以帮助量化诊断准确性和资源使用之间的高水平权衡。

对来说,这只是第一步。未来的机遇让充满动力。在生成式人工智能能够安全、负责任地应用于医疗保健领域之前,仍然存在着重要的挑战。需要从真实的临床环境中获取证据,并建立适当的治理和监管框架,以确保可靠性、安全性和有效性。正因如此,与领先的医疗机构合作,对这些方法进行严格的测试和验证——这是在更广泛推广之前至关重要的一步。

与合作伙伴坚信,医疗保健的未来将由机器智能的力量来增强人类的专业知识和同理心来塑造。期待着迈出下一步,将这一愿景变为现实。
微软AI医生来袭:MAI-DxO实现四倍于人类医生的诊断准确率

疑问解答

这项 AI 可以安全地用于医疗保健吗?
本文介绍的研究尚未获准用于临床,只有经过严格的安全测试、临床验证和监管审查后才能获得批准。目前,这代表着令人兴奋的初步研究。任何在现实世界中部署这项技术的计划的核心都是对安全、信任和质量的承诺,确保任何医疗保健解决方案都以临床为基础、符合伦理道德并透明地传达。

人工智能会取代医生吗?
尽管人工智能正在成为医疗保健领域的强大工具,但的执业临床医生团队认为,人工智能是对医生和其他医疗专业人员的补充。虽然这项技术正在快速发展,但他们的临床职责远不止简单的诊断。他们需要处理模糊性问题,并与患者及其家属建立信任,而这是人工智能无法做到的。随着人工智能的出现,临床角色也将随之演变,这将使临床医生能够自动化日常任务、更早地发现疾病、制定个性化治疗方案,并有可能完全预防某些疾病。对于消费者而言,人工智能将提供更好的自我管理和共同决策工具。

什么是 AI 协调器?
在生成式 AI 的语境中,协调器就像一位数字指挥家,帮助协调完成复杂任务的多个步骤。在医疗保健领域,鉴于每个决策都事关重大,协调的作用至关重要。协调器位于底层语言模型之上,确保诊断的每个环节都得到系统化处理,从而降低未来出现错误的风险,并提供必要的稳定性、一致性和透明度,最终赢得用户的信任。

为什么要关注成本?
最初想了解人工智能是否仅仅为了得出正确诊断而要求进行过多的诊断检查。经发现,Orchestrator能够以更少的检测成本得出正确答案。从某种程度上来说,这并不奇怪,因为过度诊断检测已被认为是一个普遍存在的挑战,在美国每年造成数百万次不必要的检测。这项研究表明,人工智能为临床医生和消费者创造了一个机会,让他们能够在降低成本的同时获得更快、更准确的诊断。

心愿下载网