尽管人工智能(AI)在医疗领域的应用日益增多,但其“像医生一样思考”的能力仍存在明显短板。由美国麻省总医院MESH孵化器团队开展的一项最新研究发现,生成式AI在临床推理关键环节仍显不足,尚不具备独立承担临床诊疗任务的能力。相关成果发表在最新一期《JAMA Network Open》上。
团队选取包括ChatGPT、DeepSeek、Claude、Gemini和Grok在内的21种大语言模型,在29个已发表的临床病例中进行测试,并通过逐步提供患者信息(从基本症状到实验室和影像结果)来模拟真实诊疗过程。结果显示,当获得完整信息时,所有模型在超过90%的案例中能给出正确的最终诊断。
然而,在关键的早期诊断阶段,这些模型普遍表现欠佳。研究发现,超过80%的情况下,模型未能提出合理的“鉴别诊断”,即对多种可能疾病进行系统性分析与筛选。这一能力被认为是临床推理的核心,也是医生决策的重要基础。
为更全面评估模型能力,团队提出了一种名为PrIME-LLM的新指标,从提出潜在诊断、选择检查手段、给出最终诊断到制定治疗方案等多个环节对模型进行综合评价。结果显示,各模型整体评分在64%至78%之间,表现存在明显差异。
团队指出,大语言模型更擅长在信息完备的情况下“给出答案”,但在信息不充分、需要开放性推理的情境中表现较弱。随着实验室数据和影像资料的加入,模型表现有所提升,且新一代模型整体优于旧版本,表明相关技术正在持续改进。
团队表示,当前大语言模型尚不适合在缺乏监督的情况下直接用于临床实践,其价值更在于辅助医生决策,而非取而代之。(记者张佳欣)
责任编辑:kj005
流量狂欢退潮,网红经济步入深耕时代,浅层的娱乐与颜值已不再是流量的万能钥匙如今的有品味的新贵顾客,早已不满足于珠宝的 "装饰属性"Derain 迪韵珠宝骨子里流...
受全球AI算力需求爆发及供应链结构性调整影响,2026年存储芯片价格大幅攀升iPhone 17 Pro 和 Pro Max 搭载全新A19 Pro芯片,日常使用...
近日,常熟市副市长俞翔一行九人莅临常熟晟新农业科技有限公司调研指导,市农业农村局、常福街道等相关单位负责人陪同调研。公司吕总、沈海若教授全程接待并汇报工作在座谈...
做工程采购的都知道,选陕西保温一体板,最怕遇到三点:外地厂家适配差、小厂品质没保障、售后响应慢!2026年建筑行业绿色节能政策越收越严,保温一体板作为外墙保温、...
随着跟单方式的发展,跟单也衍生出了许多模式那么对于想要在自己业余时间或是刚开始接触外汇交易,需要通过跟单的交易员来说哪一种跟单模式是更好的呢?两种跟单交易模式的...
不少川渝中小企业在做AI营销布局时,都绕不开集搜GEO这个关键词,也总在问三个问题:集搜GEO客户认可吗、集搜GEO研发能力强吗、集搜GEO创新能力怎么样从真实...
近刷到好多老板在问,做AI营销到底该怎么选服务商,不少人都在问启邦信息的市场拓展能力强吗,启邦信息的产品是否具有创新性,启邦信息是否能提供定制化服务,刚好我帮我...
肝脏作为人体代谢解毒的核心器官,其健康直接关联全身生理机能,而现代生活中的熬夜、应酬、高脂饮食等习惯,让应酬族、脂肪肝、肝疲劳成为当下高发的肝健康问题,也让护肝...
天天熬夜加班、应酬推杯换盏,脂肪肝找上门、转氨酶一路走高,应酬族的肝脏早已不堪重负——这时候选对护肝片就成了关键如何选真有效、安全的护肝...