OpenAI发布GPT-5.2：号称“AI最强打工人，米老鼠“同期入职”ChatGPT

在谷歌Gemini 3 Pro步步紧逼、一度让OpenAI内部拉响“红色警报”的至暗时刻，这家刚刚迎来十周年的AI巨头，终于打出了它的反击一拳。

美国时间周四，OpenAI正式发布GPT-5.2系列模型。

此前，谷歌Gemini 3系列的强势表现，几乎抹平了OpenAI在长文本和多模态领域的护城河。奥特曼内部备忘录中的“红色警报”，折射出这家领军者的焦虑。

因此，GPT-5.2不仅仅是一次版本迭代，更是一次为了生存的“护盘”之战。

红色警报下的反击：从“做题家”进化为“行业专家”

OpenAI这次摒弃了“一个模型打天下”的策略，将GPT-5.2细分为三个版本，精准对应不同的算力需求与应用场景：

GPT-5.2 Instant（即时版）： 针对高频、轻量级任务优化，如搜索、翻译和基础写作，主打速度与低延迟。
GPT-5.2 Thinking（思考版）： 这是本次更新的核心主力，擅长编程、数学推导及复杂文档分析，对标深度推理需求。
GPT-5.2 Pro（专业版）： 算力拉满的顶级型号，旨在为最棘手的问题提供最高的准确性和可靠性，是解决“长尾难题”的杀手锏。

这次发布中最令人瞩目的，不再是传统的MMLU跑分，而是一个名为GDPval的全新评估体系。

过去我们评价AI，看的是它能不能考高分。但OpenAI意识到，会做选择题不代表会工作。GDPval旨在衡量AI在现实世界、具有经济价值的任务上的表现。

OpenAI选取了美国贡献GDP最高的9个行业中的44个核心职业，邀请平均拥有14年工作经验的资深专家设计了1320项真实任务。这些任务不是简单的问答，而是包括制作销售演示文稿、编制会计电子表格、设计制造流程图等复杂的“白领工作”。

在GPT-5.2 Thinking与这些行业顶尖专家的盲测对比中，70.9%的结果优于或持平于人类专家；而在Pro版本中，这一数字更是达到了74.1%。

这意味着，在处理复杂的专业知识工作时，GPT-5.2已经不再是一个刚毕业的实习生，而是一个拥有十几年经验、且不知疲倦的资深专家。特别是在人力资源规划模型、股权结构表和项目管理表格的制作上，GPT-5.2展现出了肉眼可见的专业度提升。

除了工作能力，GPT-5.2在ARC-AGI-2测试上的表现，标志着AI智力结构发生了质变。

ARC-AGI由Keras之父François Chollet提出，旨在测试AI在面对全新情境下的逻辑推理能力，即“流体智力”。这不同于依赖海量训练数据的“晶体智力”，它考察的是AI的“悟性”。

在以往，即使是GPT-5.1，在这一测试中的得分也仅为17.6%。而GPT-5.2直接飙升至52.9%。

分数的翻倍意味着GPT-5.2开始具备真正的举一反三能力，而不是单纯依赖对互联网数据的背诵。横向对比中，GPT-5.2 Thinking在涵盖现实世界软件工程任务（SWE-Bench Pro）和博士级科学知识（GPQA Diamond）的测试中，均略胜于谷歌的Gemini 3和Anthropic的Claude Opus 4.5。

对于企业用户而言，准确性是红线。OpenAI产品负责人Max Schwarzer透露，GPT-5.2 Thinking的幻觉率和错误率较前代降低了38%。