1M上下文、原生多模态、Agent能力集齐，MiniMax发布新模型M3

志斌 • 2026年6月1日下午5:44 • 人工智能

大模型之家讯 6月1日，MiniMax正式发布新一代基础模型MiniMax M3。该模型在长上下文处理、代码生成、智能体（Agent）以及多模态理解等方向进行了重点升级，并同步开放API服务及配套Agent产品MiniMax Code。

在当前大模型竞争逐步从通用对话转向复杂任务执行的背景下，长上下文、Agent能力与多模态融合正成为行业关注的新焦点。

M3瞄准复杂Agent任务

根据MiniMax披露的信息，M3采用全新的MSA（MiniMax Sparse Attention）稀疏注意力架构，支持最高100万（1M）Token上下文窗口，并支持图片、视频输入以及桌面操作能力。

相比传统全注意力机制，MSA通过稀疏计算方式降低长文本处理成本。官方数据显示，在100万上下文长度下，M3单Token计算量较上一代模型显著下降，并在推理效率方面实现数倍提升。

长上下文能力被认为是Agent执行复杂任务的重要基础。随着AI逐渐承担软件开发、科研分析等长流程工作，模型对超长信息的理解与持续推理能力正成为新的技术竞争点。

在模型能力方面，MiniMax公布了多项公开基准测试结果。

其中，在衡量软件工程能力的SWE-Bench Pro测试中，M3取得59.0%的成绩；在终端任务测试Terminal Bench 2.1中达到66.0%；在面向Agent能力评估的MCP Atlas测试中获得74.2%。

此外，在文档理解评测OmniDocBench以及Agent端到端评测Claw-Eval中，M3也取得较高成绩。

值得关注的是，MiniMax此次特别强调“长期协作式Agent”训练思路。公司表示，真实开发场景往往涉及多轮需求沟通、方案修改和持续迭代，因此构建了模拟真实开发者交互行为的训练框架，以增强模型在长期任务中的协作能力。

除了编程和Agent能力外，M3也是一款原生多模态模型。

据介绍，模型从训练初期即同时处理文本、图像等不同模态数据，而非后期外挂视觉模块。MiniMax认为，这种训练方式有助于不同模态之间形成统一语义空间，提高复杂场景下的信息理解能力。

官方披露的案例显示，M3曾在长时间自主运行过程中完成论文复现、CUDA算子优化等复杂任务。其中部分实验持续超过12小时，并涉及数百次工具调用和迭代优化。

随着M3发布，MiniMax同时宣布将开放模型API，并计划在后续公布技术报告及开源模型权重。

近年来，从OpenAI、Anthropic到Google，全球头部模型厂商正在围绕长上下文、多模态与Agent能力展开竞争。业内普遍认为，大模型的发展重心正在从“生成内容”转向“完成任务”。

从这一角度看，MiniMax M3的发布不仅是一次模型迭代，也反映出国内厂商正加速向更复杂、更自主的AI Agent方向推进。

原创文章，作者：志斌，如若转载，请注明出处：http://damoai.com.cn/archives/15825