
如果未来最重要的生产资料不是GPU,而是“AI自己研发AI的能力”,行业会发生什么?
2026年5月26日,面壁智能给出了一个出人意料的答案。这家成立仅4年的中国大模型公司,发布了全球首个完全由AI编写的生产级大模型训练框架ForgeTrain、首创的定制化软件编程范式Forge Engineering、以及基于ForgeTrain框架训练出的文本基础模型MiniCPM-5-1B。
这不仅仅是又一个训练框架的发布,它标志着”AI制造AI”这条被北美头部实验室秘密押注的技术路线,第一次从概念推进到可验证、可落地的工程层面。
扭转大模型的“重工业”思维定势
为什么今天的大模型行业,越来越像一场”资源战争”?
这是因为Scaling Law每每将取得“欢欣鼓舞”模型能力的背后,留给企业的往往是一组“触目惊心”的数字。
以一个10万卡H100 GPU集群计算,除了硬件采购成本超过40亿美元(约合272亿元人民币),其运行过程中峰值功耗还高达150MW,每年耗电量约1.59TWh,仅电费一项就需要1.24亿美元(约合8.43亿元人民币),美国能源部旗下最快的超级计算机 El Capitan,功耗也仅有其1/5。
AI的飞速发展,让电力逐渐成为比GPU更稀缺的资源。这就是今天大模型行业的残酷现实:Scaling Law 正在把整个行业推向一场”超级资本竞赛”。
这也是为什么越来越多实力不俗的创业公司,开始在这场”烧钱大赛”中主动或被动地退出基础模型竞争。
那么,大模型行业有没有另一条路线?

如果说大模型能力的年度增长,本质上等于Scaling每代涨幅乘以每年能跑多少代,而每年能够完成的迭代代数,则直接取决于研发预算除以每代研发成本。
在这套公式中,“Scaling每代涨幅”与“研发预算”都在极大程度上受到物理资源和资金投入的刚性制约。因此,后来者想要打破巨头的资源垄断,唯一的工程学出路就是将目光锁定在分母上——只有通过工程突破,彻底降低“每代研发成本”,才能在有限的资源预算下,拉高大模型能力的进步速度。
这便是“AI制造AI”(AI for AI)这一超前AGI研究方向诞生的本质逻辑。它诞生的初衷,就是为了通过工程动能的切换,独立压缩单代研发周期T,将原本长达18个月的研发周期压缩至6个月甚至1个月,从而在工程层面上彻底解开被Scaling Law锁死的资源枷锁。
“AI制造AI”:大模型行业的分水岭
让AI自己去研发下一代AI的基础设施,可能是整个产业正在悄然跨过的第一道分水岭。
今年2月,Anthropic公开了一个由16个Claude Agent协同完成的C编译器项目,在两周内从零开始编写了10万行代码,不仅能成功编译Linux 6.9内核,还通过了GCC极限测试及150多个开源项目的编译验证。整个过程几乎没有人类干预,总API成本不到2万美元,远低于一个资深工程师的月薪水平。
几乎在同一时间,OpenAI披露了其Harness Engineering体系:其Codex智能体在五个月里生成约一百万行代码,其中没有一行人工手写代码,全部由AI生成,并被数百名员工使用验证。年初,英伟达开发的VibeTensor也将“完全由AI生成的深度学习系统”推进到了系统软件层。
行业内正在悄悄形成一个共识:AI价值,可能不是替代程序员,而是重构AI研发流程本身。

在学术界,这一过程被严谨地称为“递回归智能”(Recursive Self-Improvement,RSI),即通过将AI嵌入到AI模型研发的全流程中,实现不依赖人类智力增量的自我迭代。
写代码的AI“千篇一律”,生产级的AI“万里挑一”
在面壁智能推出ForgeTrain训练框架之前,已经有很多公司证明了”AI能写大型系统软件”。但所有这些工作,都有一个共同的致命缺陷:它们都只是研究原型,无法真正投入生产。
这正是ForgeTrain的真正突破所在:它第一次把”AI编写大型系统软件”推进到了”生产级训练框架”层面。同时,这也是全球首个完全由AI编写的生产级大模型训练框架。
它实现了两项硬核指标的突破:不仅训练效果与大模型训练的行业事实标准英伟达官方的Megatron实现了完全对齐,更在实际运行速度上直接领先了Megatron 10%。
面壁智能采用了一套非常严谨的三阶段构建方法论:
第一层:Harness驱动
ForgeTrain可以从现有训练框架采集关键数据形成评测标准和Harness,用成熟的实现作为机器可校验的绝对标准。
第二层:bit-for-bit一致复现
在评测Harness的驱动下,AI智能体开始构建与人类标杆实现二进制一致、逐比特(bit-for-bit)完全复现的训练框架版本,目前面壁智能已成功完成多机多卡版本,并在严格对齐的情况下跑出了Megatron 80%的训练速度。这意味着ForgeTrain并不是”凭感觉生成代码”,而是建立在严格工程可验证性的基础上,”复刻”人类已经验证过的最优解。
第三层:解除约束后反超
当实现了完全对齐之后,ForgeTrain才解除二进制一致的限制,切换到一组新的Harness进行迭代优化,最终实现了在相同的英伟达H100硬件上,ForgeTrain的训练速度比Megatron领先5%-10%。
先模仿人类,再超越人类。这是一个简单但极其强大的方法论。

由ForgeTrain框架完全在无人工手写代码状态下训练出的文本基础模型——MiniCPM-5-1B,在权威榜单Artificial Analysis上,MiniCPM5-1B以17.9分超过Qwen3.5-2B的16.3分,位列“小尺寸模型”榜单第一,不仅成为全球2B参数规模以内的最强开源基座模型,也拿下了4.5B以内非思考模型的最强成绩。

值得注意的是,MiniCPM5-1B的成绩并非是靠堆砌算力而来。MiniCPM5-1B仅需要1500万(15M)的输出token,便实现了高达17.9的智能指数,而Qwen3.5-2B则需要超过2.68亿(268M)token,消耗量高出了17倍。
MiniCPM5-1B的成功,不仅验证了ForgeTrain作为“AI生成训练框架”的可行性,也已经开始验证“AI生成AI基础设施,再由AI基础设施训练下一代模型”的完整闭环。
平衡通用与效率,Forge Engineering引导编程范式进阶
如果说ForgeTrain跑通,标志着中国大模型企业在“AI制造AI”这一超前AGI研究方向的竞争中,领先于北美御三家率先交卷,证明了中国大模型公司已跻身全球AGI第一梯队。那么成绩的背后,面壁智能首创的定制化软件编程范式——Forge Engineering功不可没。
在技术与工程能力的迭代之下,AI软件编程范式从“Vibe Coding”发展到“Spec Coding”再到“Harness Engineering”实现了三阶跨越。如今,由Harness驱动大型通用系统,AI在固定范式内完成端到端闭环,工程师职责从“写代码”转向“设计环境、明确意图、构建反馈循环”。然而,Harness Engineering虽然接管了“评判与交叉审查”的自动化过程,但代码本身依然被人类当成了一份需要长期维护、合并、并不断累积的技术资产。它依然拥有Main Branch(主干分支),依然需要遵循固定的Release节奏,因而也无法避免地会随着时间的推移堆积出越来越厚的技术债。
而Forge Engineering的逻辑完全不同:它彻底将代码从“一份需要长期维护的传统实现”中解绑出来,将其降维并重构为“按需锻造、用完即弃的一次性快照”。
这就像从”手工打造”到”流水线生产”,再到”按需3D打印”的进化。传统软件工程追求的“写一份通用代码去艰难适配所有复杂场景”的陈旧执念将被无情抛弃,取而代之的是搭建一个最简的通用基线,然后让AI针对具体场景现场生成最优的代码实现。
这种全新的范式,解决了软件工程几十年来所面对的“通用性”与“效率”之间的矛盾。
中国大模型公司引入AI竞争新变量
在全球AI竞争的“资源竞争”的大格局之下,ForgeTrain的出现,为行业提供了新的答案:
算力可以被封锁,但工程效率不能。
而在算力基础设施层面,面壁智能还宣布已经完成了ForgeTrain对华为昇腾910B/910C芯片的适配。
如果一个训练框架能在英伟达GPU上验证性能,同时又能在国产芯片上完成适配,那它体现出的就不只是模型能力,而是Infra能力的迁移性。
对于国产算力产业而言,这种Infra能力对国产芯片生态的意义,甚至可能比单纯的模型跑分更加重要,因为它意味着软件层的竞争力有机会反过来支撑硬件生态。未来,国产芯片在国际市场上竞争的武器,将不只是半导体工艺参数,还有由中国大模型公司亲手交到他们手中的、完全自主独立大模型Infra软件定义的能力。
当大模型基础设施并不一定只能绑定在单一国际生态里,工程效率本身也可以成为一种新的竞争变量。
过去几年,行业普遍认为:谁拥有最多GPU,谁就拥有未来。
但ForgeTrain为行业带来了另一种可能:真正决定下一代AI竞争的,也许不是谁拥有更多GPU,而是谁先让AI学会”制造AI”。
原创文章,作者:志斌,如若转载,请注明出处:http://damoai.com.cn/archives/15706