OpenAI发布GPT-5.4：AI开始比你更会用电脑

志斌 • 2026年3月6日上午9:59 • 人工智能

大模型之家讯当地时间3月5日，OpenAI正式发布GPT-5.4，这不仅是一次常规的模型迭代，而是一场能力体系的结构性重组。GPT-5.4首次实现“通用推理+专业编程+原生计算机控制”三大能力的深度融合，成为首个真正意义上的“全能型”人工智能模型。

在关键基准测试中，GPT-5.4以压倒性优势刷新纪录：

GDPval（真实工作场景模拟）胜率达83%，远超GPT-5.2的70.9%；

SWE-Bench Pro编程任务准确率57.7%，超越专精编码的GPT-5.3-Codex；

ARC-AGI-2抽象推理得分83.3%，大幅领先Gemini 3.1 Pro（77.1%）和Claude Opus 4.6（68.8%）。

更关键的是，GPT-5.4不再依赖多个模型切换——一个模型即可完成从理解需求、编写代码到执行操作的全链路任务，彻底终结“聪明但不能动手”的AI困局。

原生计算机操控：AI已比人类更熟练

GPT-5.4最震撼的突破，在于其原生计算机使用能力。它不再仅通过API调用外部工具，而是能直接“看”屏幕、“动”鼠标、“敲”键盘，像人类一样在操作系统中自主完成任务。

在权威评测OSWorld-Verified中，GPT-5.4以75.0%的成功率超越人类平均水平（72.4%）和此前领先的Claude Opus 4.6（72.7%）。这意味着，在排日程、填表格、发邮件、操作办公软件等日常任务中，AI已具备超越普通用户的执行力。

其背后是三大技术支撑：

增强的通用视觉感知：在MMMU-Pro上达81.2%准确率，文档解析误差降至0.109；

高保真图像输入：支持最高1024万像素的全细节识别，精准定位UI元素；

Playwright深度集成：可自动生成并执行浏览器自动化脚本，实现端到端验证。

OpenAI展示的多个案例——从主题公园模拟游戏到金门大桥3D飞行体验——均在无人工干预下由GPT-5.4独立完成，且通过Playwright进行多轮自动化测试与优化，展现出前所未有的“工程闭环”能力。

尽管能力跃升，GPT-5.4在效率上并未妥协。通过引入工具搜索（Tool Search）机制，模型在调用MCP工具时可动态加载定义，避免上下文爆炸。在Scale的MCP Atlas测试中，Token使用量减少47%，大幅降低推理成本。

同时，GPT-5.4的幻觉率下降33%，事实错误显著减少，使其真正具备企业级部署的可靠性。在复杂任务中，用户还可中途介入调整思路，模型保持上下文连贯，避免“推倒重来”的沟通损耗。

然而，这种能力的代价是高昂的定价：

标准版：输入2.5美元/百万token，输出15美元/百万token；

Pro版：输入30美元，输出180美元——为当前市场最高。

这一定价策略释放明确信号：GPT-5.4并非面向普通用户，而是瞄准高价值企业场景——投行建模、智能体开发、自动化运维等需要“一次交付、零容错”的领域。

GPT-5.4的发布，标志着AI从“辅助工具”向“自主执行者”的质变。它不再只是回答问题，而是直接完成工作。当AI开始比人类更熟练地使用电脑，真正的生产力革命或许才刚刚开始。

原创文章，作者：志斌，如若转载，请注明出处：http://damoai.com.cn/archives/14779