在哈佛大学的研究中，人工智能比两名人类医生提供了更准确的急诊室诊断

一项新的研究考察了大型语言模型在各种医疗环境中的表现，包括真实的急诊室病例，其中至少有一个模型似乎比人类医生更准确。这项研究发表在本周的《科学》杂志上，来自哈佛医学院和贝斯以色列女执事医疗中心的医生和计算机科学家领导的研究小组。研究人员表示，他们进行了各种实验来衡量 OpenAI 的模型与人类医生的模型相比如何。在一项实验中，研究人员重点关注了进入 Beth Israel 急诊室的 76 名患者，将两名内科主治医生提供的诊断与 OpenAI 的 o1 和 4o 模型生成的诊断进行了比较。这些诊断是由另外两名主治医生评估的，他们不知道哪些来自人类，哪些来自人工智能。研究称：“在每个诊断接触点，o1 的表现要么名义上优于或与两位主治医生和 4o 相当，”并补充说，这种差异“在第一个诊断接触点（初始 ER 分诊）尤其明显，因为此时有关患者的可用信息最少，而且最迫切需要做出正确的决定。” 在哈佛医学院关于这项研究的新闻稿中，研究人员强调，他们根本没有“预处理数据”——人工智能模型所提供的信息与每次诊断时电子病历中的信息相同。有了这些信息，o1 模型成功地在 67% 的分诊病例中提供了“准确或非常接近的诊断”，相比之下，一位医生的诊断准确率是 55%，而另一位医生的诊断准确率是 50%。哈佛医学院人工智能实验室负责人、该研究的主要作者之一阿琼·曼莱 (Arjun Manrai) 在新闻稿中表示：“我们几乎针对所有基准测试了人工智能模型，它超越了之前的模型和我们的医生基线。” 需要明确的是，该研究并没有声称人工智能已经准备好在急诊室做出真正的生死攸关的决定。相反，它表示，研究结果表明“迫切需要进行前瞻性试验，以在现实世界的患者护理环境中评估这些技术。” 研究人员还指出，他们只研究了模型在提供基于文本的信息时的表现，并且“现有研究表明，当前的基础模型在非文本输入的推理方面更加有限。” 贝斯以色列医生亚当·罗德曼（Adam Rodman）也是该研究的主要作者之一，他警告《卫报》，围绕人工智能诊断“目前没有正式的问责框架”，患者仍然“希望人类指导他们做出生死攸关的决定，并指导他们做出具有挑战性的治疗决定。” 急诊科医生 Kristen Panthagani 在一篇关于这项研究的文章中表示，这是一项“一项有趣的人工智能研究，引发了一些非常夸张的头条新闻”，特别是因为它是将人工智能诊断与内科医师而不是急诊室医师的诊断进行比较。 “如果我们要将人工智能工具与医生的临床能力进行比较，我们应该首先与实际从事该专业的医生进行比较，”潘萨加尼说。 “如果法学硕士能够在神经外科委员会考试中击败皮肤科医生，我不会感到惊讶，[但是]知道这一点并不是特别有帮助。” 她还辩称，“作为一名第一次看病人的急诊室医生，我的主要目标不是猜测你的最终诊断。我的主要目标是确定你是否患有可能致命的疾病。” 这篇文章和标题已更新，以反映该研究中的诊断来自内科主治医生的事实，并包括克里斯汀·潘萨加尼 (Kristen Panthagani) 的评论。

原文

In Harvard study, AI offered more accurate emergency room diagnoses than two human doctors

A new study examines how large language models perform in a variety of medical contexts, including real emergency room cases — where at least one model seemed to be more accurate than human doctors.

来源

TechCrunch In Harvard study, AI offered more accurate emergency room diagnoses than two human doctors