智谱AI发布AutoGLM智能体:开启AI交互"移动优先"时代,手机操控进入全自动化
2024年10月29日,启明创投投资企业智谱AI正式推出基于GLM大模型体系的首款产品化智能体AutoGLM。这款突破性产品通过接收自然语言或语音指令,即可独立完成智能手机的各类操作,标志着人工智能从"计算机交互"迈向"移动终端交互"的关键跨越,为AI技术普及应用开辟全新路径。
智能手机作为现代人最亲密的数字伴侣,其使用场景覆盖生活服务、社交娱乐、工作学习等核心领域。如果说PC时代的"Computer Use"实现了人机交互的标准化,那么AutoGLM带来的"Phone Use"革命则通过深度整合移动生态,让AI能力渗透到更贴近日常的应用场景中。目前演示视频已展示其完成朋友圈互动、复购历史商品、预订交通票务、餐饮外卖下单等高频任务,而理论上基于图形用户界面(GUI)的深度解析能力,该智能体可复现人类在各类智能终端上的操作行为。
与传统工具型AI不同,AutoGLM无需用户配置复杂工作流或依赖特定API接口,其操作逻辑完全模拟人类认知习惯,真正实现"所想即所得"的自然交互体验。这种设计理念极大降低了AI技术的使用门槛,使普通用户无需专业知识即可享受智能化服务。
如上图所示,用户可通过扫描二维码参与产品体验。左侧二维码对应Chrome/Edge浏览器的"智谱清言"插件,能实现网页端自动化操作;右侧二维码面向安卓手机用户的内测申请通道。这两种体验方式分别覆盖了桌面端与移动端场景,让用户直观感受智能体的操作能力。
当前用户可通过两种方式体验AutoGLM:在电脑端,需先安装"智谱清言"浏览器插件(支持Chrome/Edge内核),该插件作为网页自动化助手,能使大模型根据指令完成高级信息检索、内容摘要生成等复杂操作;在移动端,项目正面向部分"清言"应用用户开放内测资格(暂支持安卓系统),用户可通过官方渠道提交体验申请。值得关注的是,智谱AI已与荣耀等头部手机厂商达成深度合作,预示着未来可能通过系统级整合将该技术预装到智能终端中。
AutoGLM的技术突破源于两大核心创新:"基础智能体解耦合中间界面"与"自进化在线课程强化学习框架"。这两套自研系统分别解决了智能体任务执行的精确性与环境适应性难题,结合动态自适应学习策略,使模型能在实际应用中持续迭代优化,实现性能的稳步提升,其学习过程类似人类通过经验积累不断掌握新技能的成长模式。
智能体技术落地面临的首要挑战是动作执行精度不足。传统端到端训练方法将"任务规划"与"动作执行"能力捆绑训练,但受限于高质量轨迹数据获取成本高、样本量稀缺等问题,导致精细操作能力训练不充分。AutoGLM创新性引入解耦合架构,通过自然语言中间界面将两个核心能力分离训练,显著提升系统稳定性。
该图片清晰呈现了传统端到端模型与AutoGLM在"提交订单"按钮点击操作上的精度差异。通过对比动作指令、屏幕坐标及元素描述的预测结果,直观展示了解耦合架构如何提升操作准确性。这一技术细节解释了AutoGLM能够完成复杂GUI操作的核心原因,帮助技术开发者理解智能体架构设计的创新价值。
其次是任务规划灵活性的突破。面对真实环境中的复杂任务,传统模仿学习或有监督微调方法难以让模型具备动态调整能力。智谱AI以Web浏览器为实验场,构建了"自进化在线课程强化学习框架",使模型能在真实网络环境中从零开始自主学习。该框架通过动态调整任务难度的课程学习机制、KL散度控制的策略更新方法,以及基于置信度的经验回放系统,有效解决了智能体训练中的数据稀缺、反馈信号不足及策略漂移等关键问题。
技术验证显示,基于该方法训练的开源模型GLM-4-9B在WebArena-Lit评测基准中,任务成功率达到43%,相对GPT-4o提升160%以上。在更复杂的AndroidLab手机操作评测中,AutoGLM性能显著超越GPT-4o和Claude-3.5-Sonnet等竞品;WebArena-Lit基准测试更实现200%的性能提升,大幅缩小了人机操作能力差距。目前AutoGLM已通过安卓应用形式实现多场景自动化任务,在初步人工评测中展现出令人满意的执行效果。
AutoGLM的推出不仅是产品创新,更代表着智能体技术从实验室走向实用化的重要突破。通过解决任务规划与动作执行的核心矛盾,智谱AI为通用人工智能(AGI)的发展提供了可落地的技术路径。随着移动终端智能化程度的加深,我们有理由期待AI将以更自然、更无感的方式融入日常生活,真正实现"技术服务于人"的终极目标。用户可访问官方网站获取更多技术细节与体验信息,共同见证人工智能交互范式的历史性变革。
Kimi-K2.5Kimi K2.5 是一款开源的原生多模态智能体模型,它在 Kimi-K2-Base 的基础上,通过对约 15 万亿混合视觉和文本 tokens 进行持续预训练构建而成。该模型将视觉与语言理解、高级智能体能力、即时模式与思考模式,以及对话式与智能体范式无缝融合。Python00- QQwen3-Coder-Next2026年2月4日,正式发布的Qwen3-Coder-Next,一款专为编码智能体和本地开发场景设计的开源语言模型。Python00
xw-cli实现国产算力大模型零门槛部署,一键跑通 Qwen、GLM-4.7、Minimax-2.1、DeepSeek-OCR 等模型Go06
PaddleOCR-VL-1.5PaddleOCR-VL-1.5 是 PaddleOCR-VL 的新一代进阶模型,在 OmniDocBench v1.5 上实现了 94.5% 的全新 state-of-the-art 准确率。 为了严格评估模型在真实物理畸变下的鲁棒性——包括扫描伪影、倾斜、扭曲、屏幕拍摄和光照变化——我们提出了 Real5-OmniDocBench 基准测试集。实验结果表明,该增强模型在新构建的基准测试集上达到了 SOTA 性能。此外,我们通过整合印章识别和文本检测识别(text spotting)任务扩展了模型的能力,同时保持 0.9B 的超紧凑 VLM 规模,具备高效率特性。Python00
KuiklyUI基于KMP技术的高性能、全平台开发框架,具备统一代码库、极致易用性和动态灵活性。 Provide a high-performance, full-platform development framework with unified codebase, ultimate ease of use, and dynamic flexibility. 注意:本仓库为Github仓库镜像,PR或Issue请移步至Github发起,感谢支持!Kotlin08
VLOOKVLOOK™ 是优雅好用的 Typora/Markdown 主题包和增强插件。 VLOOK™ is an elegant and practical THEME PACKAGE × ENHANCEMENT PLUGIN for Typora/Markdown.Less00