百川发布新一代医疗增强大模型M4,登顶HealthBench全球第一

大模型之家讯 近日,百川智能与清华大学研究团队联合发布新一代医疗增强大模型 Baichuan-M4。该模型在 OpenAI 提出的权威医疗评测 HealthBench 及其 Hard、Professional 三个子榜单上同时位列世界第一,综合得分 68.6,全面超越 GPT-5.5、Claude Opus 4.7、DeepSeek-V4-Pro 等国际顶尖模型,幻觉率低至 3.3%,为全行业最低。

百川发布新一代医疗增强大模型M4,登顶HealthBench全球第一

M4 的核心突破在于四项贴近真实临床的能力。在深度问诊方面,M4 能够像临床医生一样主动追问患者,引导其提供完整病程信息,而非被动等待答案。其联合 150 多位一线医生构建的动态问诊评测体系 SCAN-bench 显示,M4 初诊得分 79.0、复诊得分 74.7,均明显领先 GPT-5.5 等竞品。在全病程记忆方面,M4 打通历史病历、多轮问诊、化验趋势与用药反馈,长上下文临床记忆评测得分 86.9,为同类最高,较上一代 M3 提升 21.1 分。

百川发布新一代医疗增强大模型M4,登顶HealthBench全球第一

在循证医学层面,百川首创的「证据锚定」要求模型每一句医学结论都精确对应到原始论文或指南具体段落。依托六源循证范式,M4 的循证引用精度达 90.0,远超 GPT-5.5 的 54.7 和 OpenEvidence 的 55.9。此外,百川面向医疗场景构建的 Baichuan-Harness Agent 架构,将问诊、记忆、循证编排为完整的医疗智能体,可自主完成连续诊疗,无需人工逐步指令。

百川发布新一代医疗增强大模型M4,登顶HealthBench全球第一

百川表示,从 M1 到 M4,团队始终聚焦于让 AI 真正能看病。目前全球顶尖大模型公司均已竞逐医疗赛道,M4 在严肃医疗场景中给出了目前业界最好的答卷,正在将优质诊疗资源带到更多人身边。

原创文章,作者:志斌,如若转载,请注明出处:http://damoai.com.cn/archives/16507

(0)
上一篇 10小时前
下一篇 2025年9月12日 下午3:25

相关推荐

发表回复

登录后才能评论