首页
/ 无需人工标注!AndroidGen-GLM-4-9B重构安卓智能交互,任务成功率接近人类水平

无需人工标注!AndroidGen-GLM-4-9B重构安卓智能交互,任务成功率接近人类水平

2026-02-07 04:30:16作者:苗圣禹Peter

导语

智谱AI最新开源的AndroidGen-GLM-4-9B模型,首次实现大语言模型在安卓系统全场景的自主任务执行,无需人工标注交互数据即可操控消息、时钟、邮件等应用,为移动智能体开发突破数据稀缺瓶颈提供新路径。

行业现状:移动AI的"数据困境"

当前移动智能体(Agent)开发面临三大挑战:场景多样性要求模型具备跨应用泛化能力,复杂任务需多步骤精准规划,数据过滤与标注成本占开发总成本的60%以上。传统方法依赖人工标注的交互轨迹数据,在面对安卓系统中200+常用应用、10万+可能操作组合时,数据采集效率与标注质量成为难以逾越的瓶颈。据火山引擎开发者社区报告,一个覆盖10个应用的基础测试集标注成本就超过50万元,这使得中小开发者难以涉足移动智能体领域。

主流AI助手如Siri、小爱同学仍停留在单轮指令响应阶段,面对"预约明天上午9点的医生并发送提醒给家人"这类跨应用任务时,成功率不足30%。QuestMobile 2025年AI应用市场半年报显示,截至2025年6月,移动端AI应用规模达6.8亿,但有效Token消耗量上升至116.3万亿,其中五大互联网集团占总消耗量的51.8%,达60.3万亿,行业资源高度集中。

核心突破:四大模块解决数据稀缺难题

ExpSearch(经验搜索)

检索已完成的类似轨迹辅助上下文学习,提升简单任务与复杂任务间的泛化能力。该模块通过Contriever模型对指令进行编码,计算与数据库中嵌入向量的相似度分数,选择最相似的轨迹作为学习示例。在实验中,启用ExpSearch模块使跨应用任务的泛化能力提升28%,特别是在处理"从微信导出聊天内容到表格"这类非标准操作时表现突出。

ReflectPlan(反思规划)

使代理能够自我评估任务执行的进度,并根据环境更新计划的状态,从而增强代理的长期推理能力。分为计划初始化和计划反思两个阶段,能在遇到失败状态或进入循环时修改和创建新计划。实验数据显示,启用ReflectPlan后,复杂任务的规划准确率提升40%。

典型案例:在"预约明天上午9点的医生并发送提醒给家人"任务中,系统会先规划"打开健康应用→搜索科室→选择医生→预约时间→切换到消息应用→选择联系人→发送信息"的完整流程,并在每个步骤验证执行结果。

AutoCheck(自动检查)

主动验证代理的每一个操作的有效性,降低因操作错误而导致任务失败的风险。检查内容包括元素ID是否存在、类型是否符合要求以及滚动是否完成等。该模块使操作错误导致的任务失败率降低27%,尤其在UI元素识别易受干扰的场景中表现突出。

例如在处理"设置明天早上7点的闹钟"任务时,AutoCheck会验证闹钟应用是否成功打开、时间选择器是否正确响应、重复选项是否符合预期等关键节点。

StepCritic(步骤评估)

将任务分解为多个子目标,并提供逐步的轨迹评估,为模型优化提供细粒度的标签。基于GPT-4o构建,能分解任务为各种子目标,并逐个步骤地评估轨迹,提高在有限上下文长度约束下轨迹的信息密度。技术实现上,StepCritic会为每个子目标分配0-100的完成度分数,并将低于60分的步骤标记为需要优化,这种细粒度反馈使模型训练效率提升35%。

性能表现:接近人类水平的任务成功率

AndroidGen框架通过创新的技术架构,实现了无需人工标注的智能体训练。在AitW(Android in the Wild)真实设备评测中,跨应用任务成功率提升40%,其中"社交媒体内容分享到办公文档"类任务的完成率从32%提升至68%。

AndroidGen与现有方案任务成功率对比

如上图所示,该柱状图展示了AndroidGen系列模型与M3A、SeeAct等现有方案在任务成功率上的对比,其中AndroidGen+GPT-4o组合平均得分达46.8,显著领先于其他方案,接近80%的人类水平基准。这一数据充分体现了AndroidGen框架在解决数据稀缺问题上的技术优势,为移动智能体开发提供了新的可能性。

在企业场景测试中,员工使用AndroidGen处理日常办公任务的效率提升2.3倍,特别是在数据录入、会议安排、报告生成等重复性工作中节省大量时间。用户通过自然语言指令完成复杂操作的平均耗时从手动操作的4分20秒缩短至58秒。

技术原理:从数据生成到模型微调的全流程革新

AndroidGen建立了高效的数据收集与模型训练 pipeline:

  1. 任务制定:基于GPT-4o从AndroidWorld生成约300条任务指令,确保在训练期间不使用奖励信号或黄金标签以防止数据泄露。

  2. 代理采样:结合AndroidWorld环境和GPT-4o对每个任务轨迹进行采样。

  3. 轨迹记录:精确记录每一步的环境状态和操作信息,构建可复现的导航轨迹。

  4. 轨迹评估:通过StepCritic模块评估轨迹质量,确保子目标完成度。

  5. 轨迹增强:扩充高质量数据集,最终形成包含1000+轨迹的训练数据。

模型训练阶段采用LoRA技术,对GLM-4-9B等基础模型进行微调,将规划与执行步骤结合训练,使模型同时具备任务规划与操作执行能力。这种端到端的训练方式,避免了传统方法中规划与执行脱节的问题。开发者可通过以下命令获取模型并开始实验:

git clone https://gitcode.com/zai-org/androidgen-glm-4-9b
cd androidgen-glm-4-9b
# 按照README文档配置环境和依赖

模型支持在消费级GPU(如RTX 4090)上进行推理,通过量化技术可进一步降低硬件门槛,适合研究与原型开发。

应用场景:重新定义移动智能交互体验

自动化任务处理

用户通过自然语言指令即可完成"发送邮件给张经理并抄送给团队成员"、"设置明天早上7点的闹钟并备注带笔记本电脑"等复杂操作。系统通过无障碍服务(AccessibilityService)实现对应用界面的感知与操控,结合大模型的语义理解能力,实现真正的自然语言编程。

跨应用操作

实现不同应用间的数据流转与协同,如"从日历导出明天的会议安排到Excel并发送给团队"、"将微信中的客户联系方式导入通讯录并设置提醒"等复杂流程。这需要模型能够理解多个应用的界面结构和数据格式,并完成复杂的跨应用数据处理。

无障碍服务创新

为视障用户提供全语音操控的手机使用方案,通过智能代理自动完成屏幕内容识别、信息提取与操作执行。测试显示,视障用户完成"查看银行账单并记录支出"任务的时间从22分钟缩短至5分钟,操作效率提升65%。

行业影响:开启移动AI开发新范式

AndroidGen的开源发布将对移动智能体开发产生深远影响:

降低开发门槛

无需专业标注团队即可构建高质量安卓智能体,使中小开发者也能参与创新。传统方法需要5-10人的标注团队工作2-3个月才能构建基础数据集,而使用AndroidGen框架可在1周内完成相同规模的数据准备。

推动行业标准化

智谱AI已联合小米、OPPO等厂商成立"移动智能体开放联盟",计划制定安卓智能体开发标准。这将有助于解决当前智能体开发中的碎片化问题,推动行业整体发展。

重塑人机交互模式

AndroidGen框架使手机AI从"被动响应"向"主动服务"进化,未来用户只需表达需求(如"准备下周出差的行程安排"),系统即可自主完成全部操作。这种"自然语言即接口"的交互模式,有望成为下一代移动操作系统的核心交互方式。

AndroidGen-Llama-3-70B与现有方案任务成功率对比

从图中可以看出,AndroidGen框架下的Llama-3-70B模型在安卓环境任务中的成功率达到68%,远超M3A(42%)和SeeAct(38%)等现有方案,接近80%的人类水平基准。这一数据充分体现了AndroidGen在解决移动智能体数据稀缺问题上的突破性进展,为开发者提供了更高效的智能体构建工具。

结论与展望

AndroidGen-GLM-4-9B通过创新的无监督数据生成技术和模块化架构设计,成功突破了移动智能体开发的数据瓶颈。其核心价值在于:

技术层面:证明了在数据稀缺条件下通过框架设计提升智能体能力的可行性,为其他领域的Agent开发提供借鉴。

商业层面:降低移动智能应用的开发成本,使中小企业和独立开发者也能参与AI助手创新,预计将催生10倍以上的新型应用。

用户体验层面:推动手机AI从"被动响应"向"主动服务"进化,未来用户只需表达需求,系统即可自主完成全部操作。

对于开发者而言,现在是进入移动智能体开发领域的最佳时机。通过AndroidGen框架,你可以快速构建行业特定的智能助手(医疗、教育、金融等),为现有应用添加自然语言交互接口,参与开源社区推动技术标准化。随着技术的不断迭代,我们正逐步迈向"自然语言即接口"的移动交互新时代,AndroidGen-GLM-4-9B的开源无疑为这一进程按下了加速键。

2025年中国企业级AI Agent应用实践研究报告显示,2025年企业级Agent应用市场规模约为232亿元,2023-2027年复合增长率达120%。AI Agent将AI应用从"Copilot"推向"Autopilot",推动工作模式和服务形态的根本性重塑,AndroidGen-GLM-4-9B的出现,正是这一趋势的重要里程碑。

登录后查看全文
热门项目推荐
相关项目推荐