智谱AI发布AutoGLM智能体:开启AI交互"移动优先"时代,手机操控进入全自动化
2024年10月29日,启明创投投资企业智谱AI正式推出基于GLM大模型体系的首款产品化智能体AutoGLM。这款突破性产品通过接收自然语言或语音指令,即可独立完成智能手机的各类操作,标志着人工智能从"计算机交互"迈向"移动终端交互"的关键跨越,为AI技术普及应用开辟全新路径。
智能手机作为现代人最亲密的数字伴侣,其使用场景覆盖生活服务、社交娱乐、工作学习等核心领域。如果说PC时代的"Computer Use"实现了人机交互的标准化,那么AutoGLM带来的"Phone Use"革命则通过深度整合移动生态,让AI能力渗透到更贴近日常的应用场景中。目前演示视频已展示其完成朋友圈互动、复购历史商品、预订交通票务、餐饮外卖下单等高频任务,而理论上基于图形用户界面(GUI)的深度解析能力,该智能体可复现人类在各类智能终端上的操作行为。
与传统工具型AI不同,AutoGLM无需用户配置复杂工作流或依赖特定API接口,其操作逻辑完全模拟人类认知习惯,真正实现"所想即所得"的自然交互体验。这种设计理念极大降低了AI技术的使用门槛,使普通用户无需专业知识即可享受智能化服务。
如上图所示,用户可通过扫描二维码参与产品体验。左侧二维码对应Chrome/Edge浏览器的"智谱清言"插件,能实现网页端自动化操作;右侧二维码面向安卓手机用户的内测申请通道。这两种体验方式分别覆盖了桌面端与移动端场景,让用户直观感受智能体的操作能力。
当前用户可通过两种方式体验AutoGLM:在电脑端,需先安装"智谱清言"浏览器插件(支持Chrome/Edge内核),该插件作为网页自动化助手,能使大模型根据指令完成高级信息检索、内容摘要生成等复杂操作;在移动端,项目正面向部分"清言"应用用户开放内测资格(暂支持安卓系统),用户可通过官方渠道提交体验申请。值得关注的是,智谱AI已与荣耀等头部手机厂商达成深度合作,预示着未来可能通过系统级整合将该技术预装到智能终端中。
AutoGLM的技术突破源于两大核心创新:"基础智能体解耦合中间界面"与"自进化在线课程强化学习框架"。这两套自研系统分别解决了智能体任务执行的精确性与环境适应性难题,结合动态自适应学习策略,使模型能在实际应用中持续迭代优化,实现性能的稳步提升,其学习过程类似人类通过经验积累不断掌握新技能的成长模式。
智能体技术落地面临的首要挑战是动作执行精度不足。传统端到端训练方法将"任务规划"与"动作执行"能力捆绑训练,但受限于高质量轨迹数据获取成本高、样本量稀缺等问题,导致精细操作能力训练不充分。AutoGLM创新性引入解耦合架构,通过自然语言中间界面将两个核心能力分离训练,显著提升系统稳定性。
该图片清晰呈现了传统端到端模型与AutoGLM在"提交订单"按钮点击操作上的精度差异。通过对比动作指令、屏幕坐标及元素描述的预测结果,直观展示了解耦合架构如何提升操作准确性。这一技术细节解释了AutoGLM能够完成复杂GUI操作的核心原因,帮助技术开发者理解智能体架构设计的创新价值。
其次是任务规划灵活性的突破。面对真实环境中的复杂任务,传统模仿学习或有监督微调方法难以让模型具备动态调整能力。智谱AI以Web浏览器为实验场,构建了"自进化在线课程强化学习框架",使模型能在真实网络环境中从零开始自主学习。该框架通过动态调整任务难度的课程学习机制、KL散度控制的策略更新方法,以及基于置信度的经验回放系统,有效解决了智能体训练中的数据稀缺、反馈信号不足及策略漂移等关键问题。
技术验证显示,基于该方法训练的开源模型GLM-4-9B在WebArena-Lit评测基准中,任务成功率达到43%,相对GPT-4o提升160%以上。在更复杂的AndroidLab手机操作评测中,AutoGLM性能显著超越GPT-4o和Claude-3.5-Sonnet等竞品;WebArena-Lit基准测试更实现200%的性能提升,大幅缩小了人机操作能力差距。目前AutoGLM已通过安卓应用形式实现多场景自动化任务,在初步人工评测中展现出令人满意的执行效果。
AutoGLM的推出不仅是产品创新,更代表着智能体技术从实验室走向实用化的重要突破。通过解决任务规划与动作执行的核心矛盾,智谱AI为通用人工智能(AGI)的发展提供了可落地的技术路径。随着移动终端智能化程度的加深,我们有理由期待AI将以更自然、更无感的方式融入日常生活,真正实现"技术服务于人"的终极目标。用户可访问官方网站获取更多技术细节与体验信息,共同见证人工智能交互范式的历史性变革。
GLM-5智谱 AI 正式发布 GLM-5,旨在应对复杂系统工程和长时域智能体任务。Jinja00
GLM-5-w4a8GLM-5-w4a8基于混合专家架构,专为复杂系统工程与长周期智能体任务设计。支持单/多节点部署,适配Atlas 800T A3,采用w4a8量化技术,结合vLLM推理优化,高效平衡性能与精度,助力智能应用开发Jinja00
请把这个活动推给顶尖程序员😎本次活动专为懂行的顶尖程序员量身打造,聚焦AtomGit首发开源模型的实际应用与深度测评,拒绝大众化浅层体验,邀请具备扎实技术功底、开源经验或模型测评能力的顶尖开发者,深度参与模型体验、性能测评,通过发布技术帖子、提交测评报告、上传实践项目成果等形式,挖掘模型核心价值,共建AtomGit开源模型生态,彰显顶尖程序员的技术洞察力与实践能力。00
Kimi-K2.5Kimi K2.5 是一款开源的原生多模态智能体模型,它在 Kimi-K2-Base 的基础上,通过对约 15 万亿混合视觉和文本 tokens 进行持续预训练构建而成。该模型将视觉与语言理解、高级智能体能力、即时模式与思考模式,以及对话式与智能体范式无缝融合。Python00
MiniMax-M2.5MiniMax-M2.5开源模型,经数十万复杂环境强化训练,在代码生成、工具调用、办公自动化等经济价值任务中表现卓越。SWE-Bench Verified得分80.2%,Multi-SWE-Bench达51.3%,BrowseComp获76.3%。推理速度比M2.1快37%,与Claude Opus 4.6相当,每小时仅需0.3-1美元,成本仅为同类模型1/10-1/20,为智能应用开发提供高效经济选择。【此简介由AI生成】Python00
Qwen3.5Qwen3.5 昇腾 vLLM 部署教程。Qwen3.5 是 Qwen 系列最新的旗舰多模态模型,采用 MoE(混合专家)架构,在保持强大模型能力的同时显著降低了推理成本。00- RRing-2.5-1TRing-2.5-1T:全球首个基于混合线性注意力架构的开源万亿参数思考模型。Python00