AI医疗进入深水区:研究指生成式模型尚难独立承担临床推理重…

由美国麻省总医院MESH孵化器团队开展的一项针对生成式人工智能（AI）临床推理能力的最新研究显示，尽管AI在医疗领域的渗透日益加深，但在模拟真实诊疗的逻辑链条中仍存在显著短板。相关研究成果已发表于权威期刊《JAMA Network Open》，明确指出当前主流模型尚不具备独立承担临床诊疗任务的能力。

该研究选取了包括ChatGPT、DeepSeek、Claude、Gemini及Grok在内的21种大语言模型，通过29个已知临床病例进行多轮测试。实验通过逐步释放患者症状、实验室数据及影像结果，高度模拟了医生的动态诊疗过程。数据显示，在获得完整信息的前提下，所有模型给出正确最终诊断的准确率均超过90%。然而，在临床推理的核心环节——“鉴别诊断”中，超过80%的模型表现欠佳，无法对多种潜在疾病进行系统性分析与筛选。

AI医疗进入深水区:研究指生成式模型尚难独立承担临床推理重任

为量化这一差异，研究团队引入了PrIME-LLM综合评价指标，覆盖从初期诊断、检查决策到治疗方案制定的全流程。评测结果显示，各模型综合得分在64%至78%之间，反映出AI更擅长在信息完备时“揭晓答案”，而非在信息不充分的情况下进行开放性逻辑推演。

尽管新一代模型在处理复杂数据资料方面较旧版本有明显进步，但研究团队强调，大语言模型目前仍定位为辅助工具，在缺乏专业监督的情况下直接用于临床实践仍具风险。这一发现为AI医疗的未来演进提供了理性坐标:从简单的“结果拟合”向复杂的“逻辑推理”跨越，将是医疗大模型迈向专业化应用的关键门槛。

Anthropic正评估自研AI芯片，以应对2026年Claude模型需求爆发，增强算力掌控并减少对外依赖。公司年化收入已突破300亿美元，强劲业绩驱动其战略转型。

美国俄亥俄州一名14岁高中生利用AI技术篡改同学照片并传播不雅影像，面临多项重罪指控。此案凸显了AI技术在校园环境中的滥用风险，以及法律对新型数字犯罪快速反应的必要性。

苹果发布两项机器学习研究：SQUIRE系统利用GPT-4o和槽查询中间表示，提升AI生成UI的可控性与微调效率；另一项研究则强化图像安全审查能力，旨在解决现有技术痛点。

北京市互联网信息办公室发布公告，对直接调用已备案大模型的生成式人工智能应用实行登记管理，允许其合法上线服务。截至2026年4月3日，北京市新增15款完成登记的服务，为市民提供便利。

阿里发布新一代大语言模型Qwen3.6-Plus，被誉为当前最强国产编程模型。相比3.5版本性能显著提升，在多项编程评测中位居国产首位，整体能力接近国际标杆Claude系列。该模型在前端开发、复杂仓库任务等方面展现出高度自主化能力。

关注 “悠AI” 更多干货技巧行业动态

AI广播站

文章版权归作者所有，未经允许请勿转载。

没有相关内容!

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

AI医疗进入深水区:研究指生成式模型尚难独立承担临床推理重…

AI正式纳入教资考试与公共必修课:五部门联合部署，开启全民…

没有更多了...

相关文章

暂无评论