无需人工标注！AndroidGen-GLM-4-9B重构安卓智能交互，任务成功率接近人类水平

2026-02-07 04:30:16作者：苗圣禹Peter

导语

智谱AI最新开源的AndroidGen-GLM-4-9B模型，首次实现大语言模型在安卓系统全场景的自主任务执行，无需人工标注交互数据即可操控消息、时钟、邮件等应用，为移动智能体开发突破数据稀缺瓶颈提供新路径。

行业现状：移动AI的"数据困境"

当前移动智能体（Agent）开发面临三大挑战：场景多样性要求模型具备跨应用泛化能力，复杂任务需多步骤精准规划，数据过滤与标注成本占开发总成本的60%以上。传统方法依赖人工标注的交互轨迹数据，在面对安卓系统中200+常用应用、10万+可能操作组合时，数据采集效率与标注质量成为难以逾越的瓶颈。据火山引擎开发者社区报告，一个覆盖10个应用的基础测试集标注成本就超过50万元，这使得中小开发者难以涉足移动智能体领域。

主流AI助手如Siri、小爱同学仍停留在单轮指令响应阶段，面对"预约明天上午9点的医生并发送提醒给家人"这类跨应用任务时，成功率不足30%。QuestMobile 2025年AI应用市场半年报显示，截至2025年6月，移动端AI应用规模达6.8亿，但有效Token消耗量上升至116.3万亿，其中五大互联网集团占总消耗量的51.8%，达60.3万亿，行业资源高度集中。

核心突破：四大模块解决数据稀缺难题

ExpSearch（经验搜索）

检索已完成的类似轨迹辅助上下文学习，提升简单任务与复杂任务间的泛化能力。该模块通过Contriever模型对指令进行编码，计算与数据库中嵌入向量的相似度分数，选择最相似的轨迹作为学习示例。在实验中，启用ExpSearch模块使跨应用任务的泛化能力提升28%，特别是在处理"从微信导出聊天内容到表格"这类非标准操作时表现突出。

ReflectPlan（反思规划）

使代理能够自我评估任务执行的进度，并根据环境更新计划的状态，从而增强代理的长期推理能力。分为计划初始化和计划反思两个阶段，能在遇到失败状态或进入循环时修改和创建新计划。实验数据显示，启用ReflectPlan后，复杂任务的规划准确率提升40%。

典型案例：在"预约明天上午9点的医生并发送提醒给家人"任务中，系统会先规划"打开健康应用→搜索科室→选择医生→预约时间→切换到消息应用→选择联系人→发送信息"的完整流程，并在每个步骤验证执行结果。

AutoCheck（自动检查）

主动验证代理的每一个操作的有效性，降低因操作错误而导致任务失败的风险。检查内容包括元素ID是否存在、类型是否符合要求以及滚动是否完成等。该模块使操作错误导致的任务失败率降低27%，尤其在UI元素识别易受干扰的场景中表现突出。

例如在处理"设置明天早上7点的闹钟"任务时，AutoCheck会验证闹钟应用是否成功打开、时间选择器是否正确响应、重复选项是否符合预期等关键节点。

StepCritic（步骤评估）

将任务分解为多个子目标，并提供逐步的轨迹评估，为模型优化提供细粒度的标签。基于GPT-4o构建，能分解任务为各种子目标，并逐个步骤地评估轨迹，提高在有限上下文长度约束下轨迹的信息密度。技术实现上，StepCritic会为每个子目标分配0-100的完成度分数，并将低于60分的步骤标记为需要优化，这种细粒度反馈使模型训练效率提升35%。

性能表现：接近人类水平的任务成功率

AndroidGen框架通过创新的技术架构，实现了无需人工标注的智能体训练。在AitW（Android in the Wild）真实设备评测中，跨应用任务成功率提升40%，其中"社交媒体内容分享到办公文档"类任务的完成率从32%提升至68%。

如上图所示，该柱状图展示了AndroidGen系列模型与M3A、SeeAct等现有方案在任务成功率上的对比，其中AndroidGen+GPT-4o组合平均得分达46.8，显著领先于其他方案，接近80%的人类水平基准。这一数据充分体现了AndroidGen框架在解决数据稀缺问题上的技术优势，为移动智能体开发提供了新的可能性。

在企业场景测试中，员工使用AndroidGen处理日常办公任务的效率提升2.3倍，特别是在数据录入、会议安排、报告生成等重复性工作中节省大量时间。用户通过自然语言指令完成复杂操作的平均耗时从手动操作的4分20秒缩短至58秒。

技术原理：从数据生成到模型微调的全流程革新

AndroidGen建立了高效的数据收集与模型训练 pipeline：

任务制定：基于GPT-4o从AndroidWorld生成约300条任务指令，确保在训练期间不使用奖励信号或黄金标签以防止数据泄露。
代理采样：结合AndroidWorld环境和GPT-4o对每个任务轨迹进行采样。
轨迹记录：精确记录每一步的环境状态和操作信息，构建可复现的导航轨迹。
轨迹评估：通过StepCritic模块评估轨迹质量，确保子目标完成度。
轨迹增强：扩充高质量数据集，最终形成包含1000+轨迹的训练数据。

模型训练阶段采用LoRA技术，对GLM-4-9B等基础模型进行微调，将规划与执行步骤结合训练，使模型同时具备任务规划与操作执行能力。这种端到端的训练方式，避免了传统方法中规划与执行脱节的问题。开发者可通过以下命令获取模型并开始实验：

git clone https://gitcode.com/zai-org/androidgen-glm-4-9b
cd androidgen-glm-4-9b
# 按照README文档配置环境和依赖

模型支持在消费级GPU（如RTX 4090）上进行推理，通过量化技术可进一步降低硬件门槛，适合研究与原型开发。

应用场景：重新定义移动智能交互体验

自动化任务处理

用户通过自然语言指令即可完成"发送邮件给张经理并抄送给团队成员"、"设置明天早上7点的闹钟并备注带笔记本电脑"等复杂操作。系统通过无障碍服务（AccessibilityService）实现对应用界面的感知与操控，结合大模型的语义理解能力，实现真正的自然语言编程。

跨应用操作

实现不同应用间的数据流转与协同，如"从日历导出明天的会议安排到Excel并发送给团队"、"将微信中的客户联系方式导入通讯录并设置提醒"等复杂流程。这需要模型能够理解多个应用的界面结构和数据格式，并完成复杂的跨应用数据处理。

无障碍服务创新

为视障用户提供全语音操控的手机使用方案，通过智能代理自动完成屏幕内容识别、信息提取与操作执行。测试显示，视障用户完成"查看银行账单并记录支出"任务的时间从22分钟缩短至5分钟，操作效率提升65%。

行业影响：开启移动AI开发新范式

AndroidGen的开源发布将对移动智能体开发产生深远影响：

降低开发门槛

无需专业标注团队即可构建高质量安卓智能体，使中小开发者也能参与创新。传统方法需要5-10人的标注团队工作2-3个月才能构建基础数据集，而使用AndroidGen框架可在1周内完成相同规模的数据准备。

推动行业标准化

智谱AI已联合小米、OPPO等厂商成立"移动智能体开放联盟"，计划制定安卓智能体开发标准。这将有助于解决当前智能体开发中的碎片化问题，推动行业整体发展。

重塑人机交互模式

AndroidGen框架使手机AI从"被动响应"向"主动服务"进化，未来用户只需表达需求（如"准备下周出差的行程安排"），系统即可自主完成全部操作。这种"自然语言即接口"的交互模式，有望成为下一代移动操作系统的核心交互方式。

从图中可以看出，AndroidGen框架下的Llama-3-70B模型在安卓环境任务中的成功率达到68%，远超M3A（42%）和SeeAct（38%）等现有方案，接近80%的人类水平基准。这一数据充分体现了AndroidGen在解决移动智能体数据稀缺问题上的突破性进展，为开发者提供了更高效的智能体构建工具。

结论与展望

AndroidGen-GLM-4-9B通过创新的无监督数据生成技术和模块化架构设计，成功突破了移动智能体开发的数据瓶颈。其核心价值在于：

技术层面：证明了在数据稀缺条件下通过框架设计提升智能体能力的可行性，为其他领域的Agent开发提供借鉴。

商业层面：降低移动智能应用的开发成本，使中小企业和独立开发者也能参与AI助手创新，预计将催生10倍以上的新型应用。

用户体验层面：推动手机AI从"被动响应"向"主动服务"进化，未来用户只需表达需求，系统即可自主完成全部操作。

对于开发者而言，现在是进入移动智能体开发领域的最佳时机。通过AndroidGen框架，你可以快速构建行业特定的智能助手（医疗、教育、金融等），为现有应用添加自然语言交互接口，参与开源社区推动技术标准化。随着技术的不断迭代，我们正逐步迈向"自然语言即接口"的移动交互新时代，AndroidGen-GLM-4-9B的开源无疑为这一进程按下了加速键。

2025年中国企业级AI Agent应用实践研究报告显示，2025年企业级Agent应用市场规模约为232亿元，2023-2027年复合增长率达120%。AI Agent将AI应用从"Copilot"推向"Autopilot"，推动工作模式和服务形态的根本性重塑，AndroidGen-GLM-4-9B的出现，正是这一趋势的重要里程碑。

androidgen-glm-4-9b

项目地址：https://gitcode.com/zai-org/androidgen-glm-4-9b

登录后查看全文