智谱AI发布AutoGLM智能体:开启AI交互"移动优先"时代,手机操控进入全自动化
2024年10月29日,启明创投投资企业智谱AI正式推出基于GLM大模型体系的首款产品化智能体AutoGLM。这款突破性产品通过接收自然语言或语音指令,即可独立完成智能手机的各类操作,标志着人工智能从"计算机交互"迈向"移动终端交互"的关键跨越,为AI技术普及应用开辟全新路径。
智能手机作为现代人最亲密的数字伴侣,其使用场景覆盖生活服务、社交娱乐、工作学习等核心领域。如果说PC时代的"Computer Use"实现了人机交互的标准化,那么AutoGLM带来的"Phone Use"革命则通过深度整合移动生态,让AI能力渗透到更贴近日常的应用场景中。目前演示视频已展示其完成朋友圈互动、复购历史商品、预订交通票务、餐饮外卖下单等高频任务,而理论上基于图形用户界面(GUI)的深度解析能力,该智能体可复现人类在各类智能终端上的操作行为。
与传统工具型AI不同,AutoGLM无需用户配置复杂工作流或依赖特定API接口,其操作逻辑完全模拟人类认知习惯,真正实现"所想即所得"的自然交互体验。这种设计理念极大降低了AI技术的使用门槛,使普通用户无需专业知识即可享受智能化服务。
如上图所示,用户可通过扫描二维码参与产品体验。左侧二维码对应Chrome/Edge浏览器的"智谱清言"插件,能实现网页端自动化操作;右侧二维码面向安卓手机用户的内测申请通道。这两种体验方式分别覆盖了桌面端与移动端场景,让用户直观感受智能体的操作能力。
当前用户可通过两种方式体验AutoGLM:在电脑端,需先安装"智谱清言"浏览器插件(支持Chrome/Edge内核),该插件作为网页自动化助手,能使大模型根据指令完成高级信息检索、内容摘要生成等复杂操作;在移动端,项目正面向部分"清言"应用用户开放内测资格(暂支持安卓系统),用户可通过官方渠道提交体验申请。值得关注的是,智谱AI已与荣耀等头部手机厂商达成深度合作,预示着未来可能通过系统级整合将该技术预装到智能终端中。
AutoGLM的技术突破源于两大核心创新:"基础智能体解耦合中间界面"与"自进化在线课程强化学习框架"。这两套自研系统分别解决了智能体任务执行的精确性与环境适应性难题,结合动态自适应学习策略,使模型能在实际应用中持续迭代优化,实现性能的稳步提升,其学习过程类似人类通过经验积累不断掌握新技能的成长模式。
智能体技术落地面临的首要挑战是动作执行精度不足。传统端到端训练方法将"任务规划"与"动作执行"能力捆绑训练,但受限于高质量轨迹数据获取成本高、样本量稀缺等问题,导致精细操作能力训练不充分。AutoGLM创新性引入解耦合架构,通过自然语言中间界面将两个核心能力分离训练,显著提升系统稳定性。
该图片清晰呈现了传统端到端模型与AutoGLM在"提交订单"按钮点击操作上的精度差异。通过对比动作指令、屏幕坐标及元素描述的预测结果,直观展示了解耦合架构如何提升操作准确性。这一技术细节解释了AutoGLM能够完成复杂GUI操作的核心原因,帮助技术开发者理解智能体架构设计的创新价值。
其次是任务规划灵活性的突破。面对真实环境中的复杂任务,传统模仿学习或有监督微调方法难以让模型具备动态调整能力。智谱AI以Web浏览器为实验场,构建了"自进化在线课程强化学习框架",使模型能在真实网络环境中从零开始自主学习。该框架通过动态调整任务难度的课程学习机制、KL散度控制的策略更新方法,以及基于置信度的经验回放系统,有效解决了智能体训练中的数据稀缺、反馈信号不足及策略漂移等关键问题。
技术验证显示,基于该方法训练的开源模型GLM-4-9B在WebArena-Lit评测基准中,任务成功率达到43%,相对GPT-4o提升160%以上。在更复杂的AndroidLab手机操作评测中,AutoGLM性能显著超越GPT-4o和Claude-3.5-Sonnet等竞品;WebArena-Lit基准测试更实现200%的性能提升,大幅缩小了人机操作能力差距。目前AutoGLM已通过安卓应用形式实现多场景自动化任务,在初步人工评测中展现出令人满意的执行效果。
AutoGLM的推出不仅是产品创新,更代表着智能体技术从实验室走向实用化的重要突破。通过解决任务规划与动作执行的核心矛盾,智谱AI为通用人工智能(AGI)的发展提供了可落地的技术路径。随着移动终端智能化程度的加深,我们有理由期待AI将以更自然、更无感的方式融入日常生活,真正实现"技术服务于人"的终极目标。用户可访问官方网站获取更多技术细节与体验信息,共同见证人工智能交互范式的历史性变革。
atomcodeClaude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get StartedRust0195
cann-learning-hubCANN 学习中心仓,支持在线互动运行、边学边练,提供教程、示例与优化方案,一站式助力昇腾开发者快速上手。Jupyter Notebook0124
MiMo-V2.5-Pro-FP4-DFlashMiMo-V2.5-Pro-FP4-DFlash 是驱动 MiMo-V2.5-Pro-UltraSpeed 的底层模型: FP4 量化骨干网络:对 MoE 专家采用 MXFP4 量化,同时保持模型其他部分的更高精度,在几乎无损质量的前提下,显著减小模型体积并降低内存带宽压力。 BF16 DFlash 草稿生成器:用于块扩散推测解码,每次前向传播可生成一整个块的 tokens,并让骨干网络一步完成验证。 两者协同作用,既降低了每参数的位宽,又减少了骨干网络前向传播的次数,而这两者正是万亿参数模型解码过程中的两大主要成本来源。Python00
JoyAI-EchoJoyAI-Echo,这是一个独立的、仅用于推理的版本,旨在实现分钟级多镜头音视频生成。它采用了经过蒸馏的DMD生成器、配对的跨模态记忆以及故事级别的一致性。其性能的核心在于,一个跨模态视听记忆库能够在长达五分钟的视频中保持角色外观和语音音色的一致性。同时,一个训练后处理流程将基于记忆的强化学习与分布匹配蒸馏相结合,实现了7.5倍的速度提升,显著增强了视觉质量和对齐效果。00
AstrBot✨ 易上手的多平台 LLM 聊天机器人及开发框架 ✨ 平台支持 QQ、QQ频道、Telegram、微信、企微、飞书 | OpenAI、DeepSeek、Gemini、硅基流动、月之暗面、Ollama、OneAPI、Dify 等。附带 WebUI。Python05
handy-ollama动手学Ollama,CPU玩转大模型部署,在线阅读地址:https://datawhalechina.github.io/handy-ollama/Jupyter Notebook07