大模型之家讯 智谱近日宣布,正式开源其核心 AI Agent 模型 AutoGLM。这一模型被业界视为当前全球首个具备 Phone Use(手机操作)能力的 AI Agent,能够在真实手机环境中“看懂”屏幕内容,并模拟人类完成点击、输入、滑动等操作,稳定跑完整个外卖点单、机票预订等长达数十步的复杂流程。目前,AutoGLM 已支持微信、淘宝、抖音、美团等 50 多个高频中文应用的核心场景,其自动化操作能力也被外界拿来与此前引发关注的“豆包手机”演示作类比。

这次开源意味着,硬件厂商、手机厂商与开发者,均可在自己的设备或系统中复现一个真正“会上手操作”的 AI 助手,而不再只是停留在对话框里的工具。更重要的是,项目同时支持本地与云端部署,数据与隐私控制权被明确交还到使用者一侧。这不仅是一次技术发布,也被视为 AI 手机从封闭尝试走向开放共建的关键节点。
从“乱点”到“可控”,32 个月的工程兑现
AutoGLM 的探索始于 2023 年 4 月。团队花费了近一年的时间,对所有可能的失效环节逐一拆解,逐步搭建出一整套 Phone Use 能力框架,将点击、滑动、输入、截图、界面理解等最基础的动作抽象为可调度、可回放的标准化模块,同时对真实世界中的网络波动、弹窗打断、广告遮挡等“脏信息”进行系统性处理。

2024 年 10 月 25 日,首个能够在真机上稳定完成完整操作链路的 AutoGLM 正式发布,并被业内认为是全球首个真正具备 Phone Use 能力的 AI Agent。一个月后,AutoGLM 在真实手机上完成了“人类历史上第一个由 AI 发出的手机红包”。这一过程并非脚本录制或 API 内嵌调用,而是通过模型在屏幕上“看见”界面、“理解”含义,再一步步完成点击操作。对团队而言,这被视作一个清晰的信号:从这一刻起,手机上的部分交互,第一次可以被完整交给 AI 接手。
进入 2025 年,AutoGLM 推出 2.0 版本,验证了强化学习在该场景下的规模扩展规律,并提出了 MobileRL、ComputerRL 与 AgentRL 等算法,让模型可以在上千台虚拟设备中并行强化学习,大幅提升了准确性与泛化能力。

云手机与隐私:能力放出来,边界守住
在技术能力不断扩展的同时,团队也对安全与隐私保持着高度警惕。他们并没有让 Agent 直接在用户真实手机、真实微信上自由操作,而是选择将其运行在与真实世界隔离的云手机之中。所有操作都可以被完整回放、审计和人为干预,真正敏感的数据则被严格隔离。这套设计背后的逻辑很直接:在让 AI 学会“会用手机”之前,必须先保证它不会在不该点的地方随意伸手。
也正是在这一前提下,开源被推到了台前。从团队给出的解释来看,选择在这个时间点开源,原因并不仅仅是技术成熟。一方面,如果“会用手机的 AI 能力”只集中在极少数厂商手中,开发者的创新空间将被平台牢牢卡住,用户最重要的个人设备,也会逐渐变成“别人家的入口”。另一方面,Phone Use 天然会触及微信、支付、照片、企业内部系统等最敏感的领域,团队并不希望,也不认为自己应该掌握这些数据。
通过开源和私有化部署,企业与开发者可以在各自合规的环境中,完整掌控数据、日志与权限,真正让手机成为“自己的 AI 手机”。AutoGLM 的模型将以 MIT 开源许可证开放,全部代码则以 Apache-2.0 许可证托管在 GitHub 示例仓库中,官方明确表示,这是一整套可以直接上手使用的基础设施,而不只是概念展示。
从应用层面看,AutoGLM 的开源无疑会显著拉低“AI 手机”和手机 Agent 的技术门槛。开发者可以直接基于现有框架去做自己的系统,研究者也可以拆解其中的模块,转化为新的算法或论文,甚至个人开发者也有机会把一个 Demo 打磨成真实可用的产品。这种“公共底座”的定位,正是团队希望带给行业的改变。
原创文章,作者:志斌,如若转载,请注明出处:http://damoai.com.cn/archives/13844