OpenAI发布GPT-5.4:AI开始比你更会用电脑

大模型之家讯 当地时间3月5日,OpenAI正式发布GPT-5.4,这不仅是一次常规的模型迭代,而是一场能力体系的结构性重组。GPT-5.4首次实现“通用推理+专业编程+原生计算机控制”三大能力的深度融合,成为首个真正意义上的“全能型”人工智能模型。

在关键基准测试中,GPT-5.4以压倒性优势刷新纪录:

OpenAI发布GPT-5.4:AI开始比你更会用电脑

GDPval(真实工作场景模拟)胜率达83%,远超GPT-5.2的70.9%;

OpenAI发布GPT-5.4:AI开始比你更会用电脑

SWE-Bench Pro编程任务准确率57.7%,超越专精编码的GPT-5.3-Codex;

ARC-AGI-2抽象推理得分83.3%,大幅领先Gemini 3.1 Pro(77.1%)和Claude Opus 4.6(68.8%)。

更关键的是,GPT-5.4不再依赖多个模型切换——一个模型即可完成从理解需求、编写代码到执行操作的全链路任务,彻底终结“聪明但不能动手”的AI困局。

原生计算机操控:AI已比人类更熟练

GPT-5.4最震撼的突破,在于其原生计算机使用能力。它不再仅通过API调用外部工具,而是能直接“看”屏幕、“动”鼠标、“敲”键盘,像人类一样在操作系统中自主完成任务。

OpenAI发布GPT-5.4:AI开始比你更会用电脑

在权威评测OSWorld-Verified中,GPT-5.4以75.0%的成功率超越人类平均水平(72.4%)和此前领先的Claude Opus 4.6(72.7%)。这意味着,在排日程、填表格、发邮件、操作办公软件等日常任务中,AI已具备超越普通用户的执行力。

其背后是三大技术支撑:

OpenAI发布GPT-5.4:AI开始比你更会用电脑

增强的通用视觉感知:在MMMU-Pro上达81.2%准确率,文档解析误差降至0.109;

高保真图像输入:支持最高1024万像素的全细节识别,精准定位UI元素;

Playwright深度集成:可自动生成并执行浏览器自动化脚本,实现端到端验证。

OpenAI发布GPT-5.4:AI开始比你更会用电脑

OpenAI展示的多个案例——从主题公园模拟游戏到金门大桥3D飞行体验——均在无人工干预下由GPT-5.4独立完成,且通过Playwright进行多轮自动化测试与优化,展现出前所未有的“工程闭环”能力。

效率与成本的再平衡:快、准、省,但更贵

尽管能力跃升,GPT-5.4在效率上并未妥协。通过引入工具搜索(Tool Search)机制,模型在调用MCP工具时可动态加载定义,避免上下文爆炸。在Scale的MCP Atlas测试中,Token使用量减少47%,大幅降低推理成本。

OpenAI发布GPT-5.4:AI开始比你更会用电脑

同时,GPT-5.4的幻觉率下降33%,事实错误显著减少,使其真正具备企业级部署的可靠性。在复杂任务中,用户还可中途介入调整思路,模型保持上下文连贯,避免“推倒重来”的沟通损耗。

然而,这种能力的代价是高昂的定价:

标准版:输入2.5美元/百万token,输出15美元/百万token;

Pro版:输入30美元,输出180美元——为当前市场最高。

这一定价策略释放明确信号:GPT-5.4并非面向普通用户,而是瞄准高价值企业场景——投行建模、智能体开发、自动化运维等需要“一次交付、零容错”的领域。

GPT-5.4的发布,标志着AI从“辅助工具”向“自主执行者”的质变。它不再只是回答问题,而是直接完成工作。当AI开始比人类更熟练地使用电脑,真正的生产力革命或许才刚刚开始。

原创文章,作者:志斌,如若转载,请注明出处:http://damoai.com.cn/archives/14779

(0)
上一篇 15小时前
下一篇 2025年3月3日

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注