4 个人围着 1 张桌子、1 台电脑，AI 史上“最寒酸”的 OpenAI 系列发布会，一开就是 12 天。前 11 天可以说是“寡淡无味”，而最后一天压轴登场的 o3 模型，结结实实给 AI 界来了个王炸。总结来说，这次的 o3 模型：很会编程，很会数学，不是 AGI，贵得离谱。

接下来详细说说 o3，关于前面 11 天的发布内容，我放在后面讲。

一、o3 模型

（一）很会编程

左为 Codeforces 测试评分，右为SWE-Bench Verified 测试评分

Codeforces（简称 CF）是一个面向全球程序员的在线编程竞赛平台，用户通过参加平台上的比赛和练习题目来提升编程技能和算法能力，每个用户在 CF 上都有一个相应的积分和等级。

在 CF 编程测试中，o3取得了 2727 分的 Elo 评分，比 o1 正式版高 44%，是 o1 预览版的两倍多。而在 OpenAI 推出的 SWE-Bench Verified 代码生成评估基准中，o3 也取得了不俗成绩，其准确率达到了 71.7%，比 o1 模型高出 20% 以上。

o3 达到这个评分意味着什么呢？放在 CF 平台全球排名系统中看，相当于在人类程序员编码竞赛中位列第 175 名，超过了 OpenAI 现任首席科学家 Jakub Pachocki（雅库布·帕乔基）的 2655 分。

官方链接：https://codeforces.com/ratings/page/1

而在 CF 平台，目前有 168076 名来自全球各地的程序员参赛，o3 排名到第 175 名，意味着在编程竞技中击败了世界上约 99.9% 的程序员（1-175/168076）。

要知道之前爆火的 GPT-4o 在 CF 编程测试中得分也才打败了世界上 11% 的程序员，强如 o1 也仅仅打败了 93% ，而 o3 直接给干到了超越 99.9%。

GPT-4o/o1-preview/o1/o1-ioi 在 CF 编程测试中得分

(二) 很会数学

左为 FrontierMath 测试得分，右为 AIME 2024 测试得分

FrontierMath 是一个用于评估人工智能高级数学推理能力的基准测试，被誉为当今最具挑战性的数学基准测试之一，其具有三个关键的设计原则：

所有问题都是新的且未发表的，以防止数据污染；
解决方案是自动可验证的，从而实现高效的评估；
问题是“防猜测”的，在没有正确推理的情况下解决的可能性很低。

即使是经验丰富的数学专家，也得绞尽脑汁，花费数小时甚至数天才能解出来。著名数学家陶哲轩（Terence Tao）更是评价道：“这项测试可能会让 AI 难住好几年。”

在大模型爆发的前三年里，FrontierMath 已经让 o1、Claude 3.5 Sonnet、GPT-4o，Grok 和 Gemini 1.5 Pro 在测试中几乎“全交白卷”，最好成绩是解决了 2% 的问题，而 o3 解决了 25.2% 的问题。

同样，在其他数学推理能力的测试中，o3 的成绩也有显著提升。例如，在美国数学邀请赛 AIME 2024 数学基准测试中，o3 的准确率达到 96.7%，而 o1 的准确率为 83.3%，GPT-4o 更是只解决了13%的问题。

这意味着什么呢？它相当于 o3 在美国数学奥林匹克竞赛上，只答错了 1 道题。

（三）不是 AGI

ARC-AGI 测试

ARC（Abstraction and Reasoning Corpus），是人工智能领域的一个重要基准，目标是评估 AI 系统在处理首次遇到的极其困难的数学和逻辑问题时的能力，要求 AI 模型具备学习新规则的能力，而不仅仅是重复记忆。最开始发表在论文《On the Measure of Intelligence》。地址： https://arxiv.org/abs/1911.01547

测试的主要形式，就是图形逻辑推理。每轮举出 3-5 个例子，图形的大小为从 1×1 到 30×30 的任意大小的网格图形，让 AI 根据图形变化的规律，预测出下一个图形的形式。地址：https://gitcode.com/gh_mirrors/ar/ARC-AGI

o 系列模型在 ARC-AGI-1 测试中得分，Y 轴为得分

在这场测试中，o3-high（高计算量模式）达到了 87.5% 的高分，o3-low（低计算量模式）也取得了 75.7% 的优异成绩，而 o1 各版本在同一测试中的得分分别为 mimi 7.8%，preview 13.33%，low 25%，med 31%，high 32%。

o3 这一成绩不仅远超之前的模型，更是接近了人类在这项测试中达到的分数阈值 85%。不过，这不代表 o3 已经达到了人类智能水平。ARC 官方表示：o3 会在一些非常简单的任务中失败，和人类智能还存在根本性的差别，因此尚未达到真正的 AGI 水平。

同时，ARC 还表示：在尚未对外发布的 ARC-AGI-2 测试中，人类的基准成绩是 95%，而 o3-high 的成绩会跌到不足 30%。

也就是说，在排除大模型不会“马虎”的前提下，越简单的题，人类答对的越多，o3 反而不会了。

关于 Claude 和 OpenAI 在 ARC-AGI 的测试结果，查看地址：https://github.com/arcprizeorg/model_baseline/tree/main/results

对了， o3 在 ARC-AGI 测试中未解决的问题，我放在了文末，大家可以去测试看看，o3 的水平是不是真的达到了人类智能。（反正小编全部解答出来了）

（四）贵得离谱

o 系列模型在 ARC-AGI-1 测试中的成本，X 轴为成本，单位美元

这次是刷新认知的贵。

还是根据 ARC-AGI 测试标准，o3-low 每个任务需要 20 美金，o3-high 每个任务数千美金。而根据计算量估算的话，o3-high 的成本大概 3500 美金，也就是说“点一次 Enter 键”，2 万人民币就没了。哪怕你问的是“1 加 1 等于几”，也是 2 万。

对比来看，o3-low 单任务成本是 o1-low 的 10 倍，o3-high 单任务成本是 o1-high 的 2000 倍。尽管 o3 在编码测试、数学竞赛等方面表现出色，但从成本效益角度看，其价格的增长幅度远超性能的提升幅度。

而从 OpenAI 的定价策略来看，3 个月前 o1-preview 版本刚出来的时候，其 API 每 100 万个输入 token 收费 15 美元，每 100 万个输出 token 收费 60 美元。现在每月支付 200 美元，就能无限使用 o1，并且可用 o1 pro mode。

估计随着技术发展，o3 的成本将快速下降，这为未来 AGI 的实现提供了经济上的可能性。

附o3模型测试申请：

https://openai.com/index/early-access-for-safety-testing

二、o3 模型对 AGI 的意义

关于 AGI 概念的标准，在不同领域和学科对人类智能的构成可能有不同的观点，但通常与 AGI 相关的能力包括：

在不确定的情况下进行推理、规划和问题解决
使用常识性知识从数据和经验中学习用自然语言进行交流
整合多种技能以实现共同目标

而 ARC-AGI 的创建者 François Chollet（弗朗索瓦·肖莱）认为：真正的智能不是你会多少技能，而是你有多会学习。毕竟，现在的大模型，你只要给他足够的数据，他就会有对应的技能，看不出到底有多聪明。

于是才有了前面的测试，用来评估那些 “没有出现过的问题”，也是目前唯一一个专门测量 AGI 进展的测试。以下是 Chollet 对 o3 模型得分高的看法：

0 强大的推理能力和任务适应能力：

传统大语言模型采用 “记忆 – 获取 – 应用” 的范式，在适应新环境或即时掌握新技能方面存在局限。而 o3 开创了全新的方法，如在 token 空间内进行自然语言程序的搜索和执行，使用类似 AlphaZero 的蒙特卡洛树搜索方法，并通过评估器模型引导搜索过程。

这种创新使 o3 能够实时生成和执行解决方案程序，通过思维链实现知识的动态重组，展现出类人的任务适应能力。

ps：关于AlphaZero 的蒙特卡洛树搜索方法可以看 AlphaGo Zero 的论文《Mastering the Game of Go without Human Knowledge》①和 AlphaZero 的论文《Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm》②。

① https://deepmind.com/documents/119/agz_unformatted_nature.pdf

② https://arxiv.org/pdf/1712.01815.pdf

0 为实现 AGI 提供新的思路和方法：

o3 的出现证明了 AI 进步不仅仅依赖于简单地扩大模型规模和增加训练数据，更关键的是架构创新。其创新的技术路线为整个 AI 行业提供了新的方向，证明了深度学习引导的程序搜索形式的可行性。

尽管 o3 模型取得了重大突破，但距离真正的 AGI 仍有一定差距，存在一些需要努力的方向。

限制 1：依赖自然语言。o3 仍然依赖自然语言指令而非可执行的符号程序，这限制了其在某些复杂任务中的表现。相比之下，可执行的符号程序能够更准确地描述和执行任务，提高模型的效率和准确性。

限制 2：缺乏交互能力。缺乏与现实世界的直接交互能力，无法像人类那样通过与现实世界的互动来学习和适应，这使得 o3 无法通过直接执行来评估自己生成的解决方案的有效性。

限制 3：简单任务出错。尽管 o3 在复杂任务中表现出色，但在一些非常简单的任务中仍会犯错，这表明其性能可能会出现较大波动，需要进一步优化和改进。

限制 4：高昂计算成本。如前文所述。

除了 o3，OpenAI 还推出了 o3-mini。它是 o3 更经济高效且性能导向的版本，在成本和延迟方面比 O1-mini 低得多，同时提供类似的功能。o3-mini 设置了低、中、高三种推理模式，用户能根据任务复杂度灵活调整模型的思考时间，这使得它在实际应用中更加灵活和实用，能够满足不同用户和场景的需求。

每次说到 AI，不能不提安全性。OpenAI 深知这一点，因此在发布 o3 和 o3-mini 的同时，向安全研究人员开放了早期访问权限，旨在通过更多实际应用测试，进一步提升模型的安全性和可靠性。OpenAI 还使用了一种新技术 “慎重对齐”，来使 o3 等模型符合其安全原则。通过 “私人思维链”，o3 被训练成在做出反应之前先 “思考”，对任务进行推理并提前规划，在较长时间内执行一系列动作，以找出更准确、更安全的解决方案。

OpenAI 预计 o3-mini 将于 1 月底左右向所有用户推出，而完整版 o3 模型还需要等通知。

三、OpenAI 发布会全程亮点回顾

Day1：o1 正式版与 ChatGPT Pro 登场

o1 正式版相比之前的 o1-preview 版本更加完备，性能提升了 34%，主要错误率降低了 34%，并且支持多模态输入；
ChatGPT Pro 订阅服务主要面向对 AI 性能要求更高的专业用户，提供无限制访问 o1 和专业版 o1 的权限。

Day2：强化微调技术发布

这是一种新的模型训练方法，支持用户使用少量的训练数据在特定领域创建专家模型，预计将于 2025 年春季开放给用户。

Day3：Sora 正式版上线

Sora 能够根据文本描述生成高达 1080p 分辨率、最长 20 秒的视频，并提供了多种视频编辑功能，如故事板、Remix、Re-cut 等；
用户可以通过时间线指导视频中多个动作的创作，将多个视频场景合并为一个全新场景，生成具有创意的新内容。

Day4：ChatGPT Canvas 全面开放

Canvas 从聊天工具升级为生产力工具，支持用户与 ChatGPT 在写作和编程方面进行协作，提供了一个共享画布，用户和 ChatGPT 可以共同编辑文档和代码；
它内置了几乎所有常用的 Python 库，支持图片识别，用户可以上传图片并生成相关的文本内容，实现了写作、审稿、编码和图片识别的全方位协作。

Day5：OpenAI 与苹果合作