大模型之家讯 7月23日,红杉资本与OpenAI核心团队成员进行了一场深度对话,聚焦ChatGPT Agent的系统架构、技术路径及未来定位。对话由红杉资本合伙人索尼娅·黄(Sonya Huang)与劳伦·里德(Lauren Reeder)主持,OpenAI团队成员伊萨·富尔福德(Isa Fulford)、凯西·楚(Casey Chu)与孙之清(Edward Sun)分享了项目开发中的关键决策与现实挑战。

这场对话不仅揭示了ChatGPT Agent从两个独立产品合并的技术背景,也强调了其如何在通用人工智能(AGI)愿景下被系统性地设计成一个具备自适应学习能力、可长时运行、支持多模态交互的“超级智能体”。
从双线产品到统一架构的能力跃迁
ChatGPT Agent的诞生源于Operator与Deep Research两个产品的融合。前者具备网页视觉交互能力,后者则擅长处理结构化文本信息。在用户对更高任务完整性的期待推动下,OpenAI团队开始尝试将两者架构打通,使工具间状态共享成为可能。通过在虚拟计算环境中运行多工具系统(包含文本浏览器、GUI浏览器、终端和API调用等),Agent能根据任务自由切换操作模式,支持更复杂任务流程。
这种统一架构的实施过程中没有预设工具调用顺序,而是通过强化学习在大量虚拟机环境中训练模型自行发现最优策略。模型可以持续运行一小时以上,在多轮对话中根据用户反馈灵活调整,甚至在任务执行中主动澄清不确定步骤,形成类人协作逻辑。
从静态执行到动态交互:用户行为的反馈闭环
ChatGPT Agent的核心能力不止于工具整合,更在于其人机交互逻辑的进化。借助状态共享和上下文延展机制,用户可以实时监控智能体操作过程、随时插入修正指令或让Agent总结任务进展。团队模拟了Slack式的协作场景,让AI与用户之间的边界更加模糊,向“可协同的虚拟助手”靠拢。
值得注意的是,OpenAI团队刻意弱化了预定义指令对任务的约束,转而依赖强化学习训练出来的交互行为。这一机制不仅提升了Agent面对未知任务的自适应能力,也增强了其面向消费者与专业用户的适用性。例如,它可在不明确目标条件下,生成预算模型并形成完整的演示文稿,也能处理包含自然语言、视觉搜索和代码执行在内的跨模态流程。
安全机制嵌入式设计:外部操作的边界管理
由于Agent具备主动访问网页、执行操作甚至调用外部API的能力,OpenAI将安全保障作为技术落地的前置条件。团队引入红队测试、实时行为监控、权限确认等机制,以避免模型在执行任务中发生不受控操作。
安全机制不仅关注操作本身的合法性,也涵盖对恶意利用风险的防控。例如,在接入银行账户、处理用户敏感信息前,Agent需主动向用户请求确认。在部分任务中,系统会自动监测潜在异常行为(如批量下单)并暂停执行,确保操作透明可控。
富尔福德指出,这种设计不仅是对Agent可执行任务范围的边界设定,更体现了OpenAI对于“工具使用权”的定义:智能体应被设计成可控、可修正且可接手的协作系统,而非完全自治。
向通用智能体演进:强化学习驱动下的任务迁移逻辑
强化学习是驱动Agent能力跃迁的核心技术路径。与传统大模型通过大规模预训练获得语言理解能力不同,ChatGPT Agent的任务执行能力更多源自在高质量任务轨迹中的行为学习。团队设计了覆盖数据抓取、网页交互、代码运行等多种维度的任务集合,让模型在试错中优化工具调用策略。
这一方法的优势在于“技能迁移”。团队在调研中发现,在视觉交互任务中获得的能力,例如点击页面元素、处理交互式表单,可迁移到学术研究或数据分析任务中,从而打通任务场景之间的能力壁垒。
未来,OpenAI倾向于推动通用型Agent的发展路线,而非构建多个垂直场景的子智能体。这种统一模型策略能更好地挖掘技能间的泛化能力,也更贴合OpenAI“打造通用人工智能”的长期目标。孙之清透露,团队希望未来Agent能处理“人类在计算机上完成的几乎所有任务”,并能根据用户行为主动推理需求,而非被动响应提示。
智能体的社会化方向仍在孕育
此次对话释放的关键信号不仅是技术本身的突破,更指向一个正在形成的AI协作范式。在个人、企业、系统三个层面,ChatGPT Agent所代表的交互模型正在改变人类与信息之间的处理边界。未来的挑战不仅是模型性能的优化,更在于Agent在社会系统中如何作为“准主体”参与任务分工与流程治理。
OpenAI的这一版本仍处在最小可行产品(MVP)阶段,距离通用智能体的构想还有不小差距。但其背后的方法论与产品策略,已初步展现出AI从工具向合作者转变的路径,也预示着新一轮“操作系统级”的创新正在接近真实落地。
原创文章,作者:志斌,如若转载,请注明出处:http://damoai.com.cn/archives/11609