xAI发布Grok 3模型，全球最大十万卡集群再现“力大砖飞”

志斌 • 2025年2月18日下午1:42 • 人工智能

大模型之家讯北京时间 2 月 13 日中午 12 点（太平洋时间 2 月 12 日晚上 8 点），马斯克旗下的人工智能公司xAI正式发布了最新一代大模型——Grok 3，并进行了现场演示。马斯克曾称GroK 3为“地球上最聪明的人工智能”，而此次发布会展示了其在推理能力、代码生成以及多项基准测试中的卓越表现。这次发布会不仅吸引了大量的关注，直播观看人数迅速突破百万，反映出市场对Grok 3的巨大期待。

Grok 3 在多个关键测试中展现出显著优势：

AIME’24 数学能力测试：Grok 3 取得 52 分，远超 DeepSeek-V3 的 39 分。
GPQA 科学知识评估：Grok 3 以 75 分 领先 DeepSeek-V3 的 65 分。
LCB Oct-Feb 编程能力测试：Grok 3 获得 57 分，大幅超越 DeepSeek-V3 的 36 分。
MMLU 评测：Grok 3 在多领域知识测试中的得分正快速追赶 ChatGPT 等主要竞争对手。

发布会现场，xAI的工程师团队展示了Grok 3和其轻量版Grok-3 Mini的强大功能，表明其在多方面的能力已超越或接近了Gemini、DeepSeek和ChatGPT等竞争产品。在实时演示中，Grok 3表现出了惊人的代码生成和推理能力。当团队要求Grok 3生成一段太空发射的3D动画代码时，它迅速完成了任务，并呈现出飞船往返地球与火星的动画，这不仅展现了其在复杂代码生成方面的能力，还证明了它对物理原理的理解。

在接下来的任务中，Grok 3又被要求设计一个类似俄罗斯方块的游戏，并在短时间内提供了切实可行的解决方案，进一步验证了其在游戏开发领域的潜力。

Grok 3核心技术突破之一是“思维链”（Chain of Thought）推理机制，使得GroK 3能够像人类一样分步骤处理复杂问题，大幅提升了逻辑推理和连贯性。马斯克表示，Grok 3在逻辑推理测试中的表现已经优于ChatGPT-5和谷歌的Gemini Ultra，并且它具备更强的创造性思维和问题解决能力。

Grok 3的成功不仅得益于全新技术架构的加持，更离不开强大的算力支持。通过在训练过程中使用10万块Nvidia H100 GPU，相较于前代1.5万块GPU，实现了算力的跨越式提升。这种规模化的计算能力证明，即便是像DeepSeek这样的现有大模型，借助大规模强化学习技术，只需少量标注数据便能显著提升模型性能。这一进步不仅降低了对海量标注数据的依赖，也大幅提高了训练效率和降低了训练及推理成本，为业界带来了一种更高性价比的解决方案。

同时，Grok 3的表现也验证了全球最大的GPU计算集群在训练模型时仍然能带来卓越的性能，这说明Scaling Law尺度法则依然成立，尽管适用场景更为限定。10万块H100的算力优势依旧不容小觑，充分展示了在大模型时代，强大算力依然是实现突破性进展的关键因素。这一现象无疑将推动整个行业在AI研发上的进一步探索和投资。

x.AI称，Grok 3已经接入马斯克旗下的社交平台X，用户可以在该平台体验到这一最新AI技术。然而大模型之家注意到，截至发稿，X平台尚未正式Grok 3大模型。

原创文章，作者：志斌，如若转载，请注明出处：http://damoai.com.cn/archives/9154