智谱开源全球首个“会操作手机的AI”AutoGLM，人人可打造豆包手机

志斌 • 2025年12月9日上午9:32 • 人工智能

大模型之家讯智谱近日宣布，正式开源其核心 AI Agent 模型 AutoGLM。这一模型被业界视为当前全球首个具备 Phone Use（手机操作）能力的 AI Agent，能够在真实手机环境中“看懂”屏幕内容，并模拟人类完成点击、输入、滑动等操作，稳定跑完整个外卖点单、机票预订等长达数十步的复杂流程。目前，AutoGLM 已支持微信、淘宝、抖音、美团等 50 多个高频中文应用的核心场景，其自动化操作能力也被外界拿来与此前引发关注的“豆包手机”演示作类比。

这次开源意味着，硬件厂商、手机厂商与开发者，均可在自己的设备或系统中复现一个真正“会上手操作”的 AI 助手，而不再只是停留在对话框里的工具。更重要的是，项目同时支持本地与云端部署，数据与隐私控制权被明确交还到使用者一侧。这不仅是一次技术发布，也被视为 AI 手机从封闭尝试走向开放共建的关键节点。

从“乱点”到“可控”，32 个月的工程兑现

AutoGLM 的探索始于 2023 年 4 月。团队花费了近一年的时间，对所有可能的失效环节逐一拆解，逐步搭建出一整套 Phone Use 能力框架，将点击、滑动、输入、截图、界面理解等最基础的动作抽象为可调度、可回放的标准化模块，同时对真实世界中的网络波动、弹窗打断、广告遮挡等“脏信息”进行系统性处理。

2024 年 10 月 25 日，首个能够在真机上稳定完成完整操作链路的 AutoGLM 正式发布，并被业内认为是全球首个真正具备 Phone Use 能力的 AI Agent。一个月后，AutoGLM 在真实手机上完成了“人类历史上第一个由 AI 发出的手机红包”。这一过程并非脚本录制或 API 内嵌调用，而是通过模型在屏幕上“看见”界面、“理解”含义，再一步步完成点击操作。对团队而言，这被视作一个清晰的信号：从这一刻起，手机上的部分交互，第一次可以被完整交给 AI 接手。

进入 2025 年，AutoGLM 推出 2.0 版本，验证了强化学习在该场景下的规模扩展规律，并提出了 MobileRL、ComputerRL 与 AgentRL 等算法，让模型可以在上千台虚拟设备中并行强化学习，大幅提升了准确性与泛化能力。

云手机与隐私：能力放出来，边界守住

在技术能力不断扩展的同时，团队也对安全与隐私保持着高度警惕。他们并没有让 Agent 直接在用户真实手机、真实微信上自由操作，而是选择将其运行在与真实世界隔离的云手机之中。所有操作都可以被完整回放、审计和人为干预，真正敏感的数据则被严格隔离。这套设计背后的逻辑很直接：在让 AI 学会“会用手机”之前，必须先保证它不会在不该点的地方随意伸手。

也正是在这一前提下，开源被推到了台前。从团队给出的解释来看，选择在这个时间点开源，原因并不仅仅是技术成熟。一方面，如果“会用手机的 AI 能力”只集中在极少数厂商手中，开发者的创新空间将被平台牢牢卡住，用户最重要的个人设备，也会逐渐变成“别人家的入口”。另一方面，Phone Use 天然会触及微信、支付、照片、企业内部系统等最敏感的领域，团队并不希望，也不认为自己应该掌握这些数据。

通过开源和私有化部署，企业与开发者可以在各自合规的环境中，完整掌控数据、日志与权限，真正让手机成为“自己的 AI 手机”。AutoGLM 的模型将以 MIT 开源许可证开放，全部代码则以 Apache-2.0 许可证托管在 GitHub 示例仓库中，官方明确表示，这是一整套可以直接上手使用的基础设施，而不只是概念展示。

从应用层面看，AutoGLM 的开源无疑会显著拉低“AI 手机”和手机 Agent 的技术门槛。开发者可以直接基于现有框架去做自己的系统，研究者也可以拆解其中的模块，转化为新的算法或论文，甚至个人开发者也有机会把一个 Demo 打磨成真实可用的产品。这种“公共底座”的定位，正是团队希望带给行业的改变。

原创文章，作者：志斌，如若转载，请注明出处：http://damoai.com.cn/archives/13844