
大模型之家讯 4月10日,在2025商汤技术交流日上,商汤科技创始人兼CEO徐立系统阐述了公司在多模态大模型与强化学习融合方向上的最新进展,正式发布了新一代通用大模型系统“日日新6.0”。从“长思维链”的构造到全局记忆机制,再到超越行业基准的数理推理能力,日日新6.0正成为商汤通往通用人工智能路径上的关键一跃。

多模态,通向通用智能的“必经之路”

“多模态模型的发展和通用人工智能的发展画上了一个约等号。”徐立在演讲伊始便直指行业核心命题。他指出,相比文本模型对互联网语料的高强度“透支”,未来的知识增量将更多隐藏在图像、视频、3D等模态中。真正实现智能的“跃迁”,不能仅依赖语言模型,而需打通不同模态间的深层理解与协同。
从这个角度看,商汤自视觉起家,向原生多模态能力拓展的路径,既是技术演进的自然延伸,也是对通用人工智能架构理解的系统升级。
构造“思维链”:以多模态数据模拟人类认知路径
此次发布的“日日新6.0”大模型,核心能力之一是构造具备推理能力的“多模态思维链”。这一能力不仅来源于商汤过往十年在图像、视频、3D识别等领域的积累,更体现为一种系统化的认知模型模拟方法。

在徐立看来,人类认知过程本身就是多模态驱动的。几何题解法需要画图,游戏规则通过图文理解,实验操作结合视觉与物理反馈。商汤希望将这种“自然的思维流程”抽象为可控的训练路径,通过构造图文视频等多模态组合的“主引擎”,生成逻辑连贯、链式演进的思维过程数据,并借助agent进行重构和优化。这不仅提升了模型的决策能力,也为强化学习中的奖励机制和优化策略提供了更真实的交互场景。
强化学习与全局记忆:为智能赋予深度与耐力
商汤将强化学习系统性地引入多模态训练流程,构建了自主激励机制。借助外部代码解释器、任务反馈函数等技术,模型在每一次“步长”演化中形成更复杂的思维路径。数据表明,在训练步长加深的过程中,模型生成的响应长度与深度同步提升,体现出智能系统推理深度的增强。
与此同时,商汤还针对多模态数据在输入容量、上下文延展方面的复杂性,开发了自适应token机制和全局记忆技术。得益于上下文窗口的优化,模型不仅能处理更长的视频、图片等序列,还能实现连续对话中的语义一致性与信息追踪,使人机交互更自然、流畅。
推理能力全面提升:日日新6.0完成从平台到能力的闭环
在发布的技术指标中,日日新6.0版本实现了多模态推理能力相较前一代(5.5版本)翻倍提升,文本能力亦有显著增长。值得注意的是,尽管训练数据偏重于多模态,文本模型的泛化性能并未受限,反而因思维链机制的引入得到优化。

徐立强调,V6版本具备统一的多模态能力、强化学习反馈机制、推理深度控制系统以及跨模态的知识迁移路径。“不只是智能形似人类,更要思维方式上逼近人类。”他表示,这是商汤当前所理解的“通用模型”的方向。
日日新6.0明日起全面开放API接入,包括V6基础版本与Reason深度推理版本。商汤希望通过平台化部署,使多模态推理系统真正走入金融、教育、制造等垂直行业中,提供能落地、可演化的“类人智能”。
原创文章,作者:志斌,如若转载,请注明出处:http://damoai.com.cn/archives/9843