豆包1.5深度思考模型面世，多模态技术重塑企业应用边界

志斌 • 2025年4月17日下午6:08 • 人工智能

大模型之家讯 4月17日，在FORCE LINK AI创新巡展·杭州站上，火山引擎正式发布了一系列AI技术成果，涵盖大模型、Agent工具及云基础设施，旨在帮助企业以更高效、低成本的方式构建和部署智能化应用。此次升级的核心——豆包1.5·深度思考模型——以多模态推理能力、低延迟响应及跨场景应用潜力，成为全场焦点。

火山引擎此次发布的豆包1.5·深度思考模型，通过MoE架构（混合专家模型）实现性能与成本的双重优化。其总参数量达2000亿（200B），但激活参数仅200亿（20B），在提供超大规模模型的推理能力同时，将延迟压缩至20毫秒以内，显著降低企业部署成本。该模型在数学、代码、科学推理等专业领域表现卓越，达到全球第一梯队水平，同时在创意写作、视觉理解等非推理任务中展现出强大泛化能力。

技术团队通过双轨奖励机制，创新性地平衡了“对错分明”与“见仁见智”的任务需求，使模型在逻辑推理与创造性思考间取得精准平衡。例如，在模拟“四个妖怪各执一词”的逻辑谜题时，模型能通过多轮假设推演，结合视觉信息（如航拍地貌分析）与文本理解（如财报拆解），最终得出符合现实的结论。

豆包1.5·深度思考模型的多模态能力已延伸至多个垂直场景。在生活场景中，豆包APP通过“边想边搜”的模式，可精准拆解复杂需求。例如，一对夫妻带孩子露营时，模型能结合预算、天气、安全需求，规划出4000元内的装备方案，并通过三轮信息搜索验证可行性。在商业场景中，该模型可分析英文财报，提炼全球区域数据，或为餐厅推荐兼顾口味与过敏风险的点餐组合。

视觉理解能力进一步拓展了模型的应用边界。豆包·视觉理解模型3.0支持多目标定位、3D感知及视频语义搜索，可应用于门店巡检、自动驾驶训练等场景。例如，通过分析航拍图像中的地貌颜色与形状，模型能快速判断开发潜力；结合视频理解能力，还能在安防领域实现行为分析与事件预警。

为加速AI应用落地，火山引擎同步推出OS Agent解决方案及ServingKit推理套件。OS Agent基于豆包1.5·UI-TARS模型，突破传统自动化工具依赖预设规则的局限，可直接操作浏览器、手机界面，完成复杂任务。例如，通过GUI Agent技术，模型能精准识别用户界面元素并自主执行操作，适用于客服、数据处理等场景。

ServingKit则针对大规模推理需求优化，可在2分钟内完成671B参数量模型的部署，并通过KV缓存技术将TPS吞吐量提升5倍，显著降低GPU资源消耗。火山引擎表示，这些技术将助力企业应对AI时代的算力挑战，实现“高效推理、弹性扩展”。

数据显示，截至2025年3月底，豆包大模型日均调用量已突破12.7万亿token，较2024年12月增长200%，较发布初期增长106倍。IDC报告显示，火山引擎以46.4%的市场份额稳居中国公有云大模型服务第一。

未来，火山引擎将推动AI Agent向“应用Agent”与“OS Agent”双轨发展。前者聚焦垂直领域（如代码开发、数据处理），后者则以跨场景通用性满足复杂需求。例如，国内首个AI原生集成开发环境Trae，已实现软件开发的“意图理解-自主规划-工具调用”全流程智能化，而OS Agent的“浏览器控制”与“移动端交互”能力，将加速企业数字化转型。

火山引擎此次发布的多模态AI技术矩阵，不仅展现了其在大模型领域的深厚积累，更通过场景化解决方案与云原生基建，为企业智能化升级提供了从技术到落地的完整路径。随着豆包1.5·深度思考模型的开放，一场由多模态驱动的AI应用革命，正在加速到来。

原创文章，作者：志斌，如若转载，请注明出处：http://damoai.com.cn/archives/9942