全球大模型竞争，正在从“拼算力”转向“AI自我进化”

如果未来最重要的生产资料不是GPU，而是“AI自己研发AI的能力”，行业会发生什么？

2026年5月26日，面壁智能给出了一个出人意料的答案。这家成立仅4年的中国大模型公司，发布了全球首个完全由AI编写的生产级大模型训练框架ForgeTrain、首创的定制化软件编程范式Forge Engineering、以及基于ForgeTrain框架训练出的文本基础模型MiniCPM-5-1B。

这不仅仅是又一个训练框架的发布，它标志着”AI制造AI”这条被北美头部实验室秘密押注的技术路线，第一次从概念推进到可验证、可落地的工程层面。

扭转大模型的“重工业”思维定势

为什么今天的大模型行业，越来越像一场”资源战争”？

这是因为Scaling Law每每将取得“欢欣鼓舞”模型能力的背后，留给企业的往往是一组“触目惊心”的数字。

以一个10万卡H100 GPU集群计算，除了硬件采购成本超过40亿美元（约合272亿元人民币），其运行过程中峰值功耗还高达150MW，每年耗电量约1.59TWh，仅电费一项就需要1.24亿美元（约合8.43亿元人民币），美国能源部旗下最快的超级计算机 El Capitan，功耗也仅有其1/5。

AI的飞速发展，让电力逐渐成为比GPU更稀缺的资源。这就是今天大模型行业的残酷现实：Scaling Law 正在把整个行业推向一场”超级资本竞赛”。

这也是为什么越来越多实力不俗的创业公司，开始在这场”烧钱大赛”中主动或被动地退出基础模型竞争。

那么，大模型行业有没有另一条路线？

如果说大模型能力的年度增长，本质上等于Scaling每代涨幅乘以每年能跑多少代，而每年能够完成的迭代代数，则直接取决于研发预算除以每代研发成本。

在这套公式中，“Scaling每代涨幅”与“研发预算”都在极大程度上受到物理资源和资金投入的刚性制约。因此，后来者想要打破巨头的资源垄断，唯一的工程学出路就是将目光锁定在分母上——只有通过工程突破，彻底降低“每代研发成本”，才能在有限的资源预算下，拉高大模型能力的进步速度。

这便是“AI制造AI”（AI for AI）这一超前AGI研究方向诞生的本质逻辑。它诞生的初衷，就是为了通过工程动能的切换，独立压缩单代研发周期T，将原本长达18个月的研发周期压缩至6个月甚至1个月，从而在工程层面上彻底解开被Scaling Law锁死的资源枷锁。

“AI制造AI”：大模型行业的分水岭

让AI自己去研发下一代AI的基础设施，可能是整个产业正在悄然跨过的第一道分水岭。

今年2月，Anthropic公开了一个由16个Claude Agent协同完成的C编译器项目，在两周内从零开始编写了10万行代码，不仅能成功编译Linux 6.9内核，还通过了GCC极限测试及150多个开源项目的编译验证。整个过程几乎没有人类干预，总API成本不到2万美元，远低于一个资深工程师的月薪水平。

几乎在同一时间，OpenAI披露了其Harness Engineering体系：其Codex智能体在五个月里生成约一百万行代码，其中没有一行人工手写代码，全部由AI生成，并被数百名员工使用验证。年初，英伟达开发的VibeTensor也将“完全由AI生成的深度学习系统”推进到了系统软件层。

行业内正在悄悄形成一个共识：AI价值，可能不是替代程序员，而是重构AI研发流程本身。

在学术界，这一过程被严谨地称为“递回归智能”（Recursive Self-Improvement，RSI），即通过将AI嵌入到AI模型研发的全流程中，实现不依赖人类智力增量的自我迭代。

写代码的AI“千篇一律”，生产级的AI“万里挑一”

在面壁智能推出ForgeTrain训练框架之前，已经有很多公司证明了”AI能写大型系统软件”。但所有这些工作，都有一个共同的致命缺陷：它们都只是研究原型，无法真正投入生产。

这正是ForgeTrain的真正突破所在：它第一次把”AI编写大型系统软件”推进到了”生产级训练框架”层面。同时，这也是全球首个完全由AI编写的生产级大模型训练框架。

它实现了两项硬核指标的突破：不仅训练效果与大模型训练的行业事实标准英伟达官方的Megatron实现了完全对齐，更在实际运行速度上直接领先了Megatron 10%。

面壁智能采用了一套非常严谨的三阶段构建方法论：

第一层：Harness驱动

ForgeTrain可以从现有训练框架采集关键数据形成评测标准和Harness，用成熟的实现作为机器可校验的绝对标准。

第二层：bit-for-bit一致复现

在评测Harness的驱动下，AI智能体开始构建与人类标杆实现二进制一致、逐比特（bit-for-bit）完全复现的训练框架版本，目前面壁智能已成功完成多机多卡版本，并在严格对齐的情况下跑出了Megatron 80%的训练速度。这意味着ForgeTrain并不是”凭感觉生成代码”，而是建立在严格工程可验证性的基础上，”复刻”人类已经验证过的最优解。

第三层：解除约束后反超

当实现了完全对齐之后，ForgeTrain才解除二进制一致的限制，切换到一组新的Harness进行迭代优化，最终实现了在相同的英伟达H100硬件上，ForgeTrain的训练速度比Megatron领先5%-10%。

先模仿人类，再超越人类。这是一个简单但极其强大的方法论。

由ForgeTrain框架完全在无人工手写代码状态下训练出的文本基础模型——MiniCPM-5-1B，在权威榜单Artificial Analysis上，MiniCPM5-1B以17.9分超过Qwen3.5-2B的16.3分，位列“小尺寸模型”榜单第一，不仅成为全球2B参数规模以内的最强开源基座模型，也拿下了4.5B以内非思考模型的最强成绩。

值得注意的是，MiniCPM5-1B的成绩并非是靠堆砌算力而来。MiniCPM5-1B仅需要1500万（15M）的输出token，便实现了高达17.9的智能指数，而Qwen3.5-2B则需要超过2.68亿（268M）token，消耗量高出了17倍。

MiniCPM5-1B的成功，不仅验证了ForgeTrain作为“AI生成训练框架”的可行性，也已经开始验证“AI生成AI基础设施，再由AI基础设施训练下一代模型”的完整闭环。

平衡通用与效率，Forge Engineering引导编程范式进阶

如果说ForgeTrain跑通，标志着中国大模型企业在“AI制造AI”这一超前AGI研究方向的竞争中，领先于北美御三家率先交卷，证明了中国大模型公司已跻身全球AGI第一梯队。那么成绩的背后，面壁智能首创的定制化软件编程范式——Forge Engineering功不可没。

在技术与工程能力的迭代之下，AI软件编程范式从“Vibe Coding”发展到“Spec Coding”再到“Harness Engineering”实现了三阶跨越。如今，由Harness驱动大型通用系统，AI在固定范式内完成端到端闭环，工程师职责从“写代码”转向“设计环境、明确意图、构建反馈循环”。然而，Harness Engineering虽然接管了“评判与交叉审查”的自动化过程，但代码本身依然被人类当成了一份需要长期维护、合并、并不断累积的技术资产。它依然拥有Main Branch（主干分支），依然需要遵循固定的Release节奏，因而也无法避免地会随着时间的推移堆积出越来越厚的技术债。

而Forge Engineering的逻辑完全不同：它彻底将代码从“一份需要长期维护的传统实现”中解绑出来，将其降维并重构为“按需锻造、用完即弃的一次性快照”。

这就像从”手工打造”到”流水线生产”，再到”按需3D打印”的进化。传统软件工程追求的“写一份通用代码去艰难适配所有复杂场景”的陈旧执念将被无情抛弃，取而代之的是搭建一个最简的通用基线，然后让AI针对具体场景现场生成最优的代码实现。

这种全新的范式，解决了软件工程几十年来所面对的“通用性”与“效率”之间的矛盾。