ShowUI:端到端GUI智能体开发全指南
2026-04-03 09:20:37作者:郜逊炳
一、核心价值:重新定义GUI自动化交互
ShowUI是一款开源的端到端视觉-语言-动作(Vision-Language-Action)模型,专为图形用户界面(GUI)智能体设计。通过融合计算机视觉与自然语言处理技术,实现对各类GUI界面的自动化理解与操作,为开发者提供开箱即用的智能交互解决方案。
解析多模态交互范式
ShowUI创新性地将视觉感知、语言理解与动作执行深度融合,构建了"观察-理解-行动"的完整闭环。其核心优势在于:
- 跨平台兼容性:支持Web、移动应用及桌面软件的GUI识别
- 零代码适配:无需预先定义界面元素坐标,直接通过视觉语义理解界面结构
- 自然语言驱动:支持以自然语言指令控制界面操作流程
技术架构解析
模型采用分层架构设计,包含:
- 视觉编码器:基于Qwen2-VL模型优化的界面元素检测与语义理解模块
- 指令解析器:将自然语言指令转化为可执行的动作序列
- 动作执行器:生成符合GUI规范的操作指令(点击、输入、滚动等)
📌 核心价值总结
- 突破传统GUI自动化对固定坐标的依赖,实现基于视觉语义的智能交互
- 支持多模态输入(图像+文本),降低复杂界面的自动化门槛
- 提供完整的训练与部署工具链,支持从研究到生产环境的无缝迁移
二、场景化部署:从环境配置到服务启动
极速配置开发环境
-
准备基础依赖
确保系统已安装Python 3.10+及pip包管理器,推荐使用conda创建独立环境:conda create -n showui python=3.10 # 创建虚拟环境 conda activate showui # 激活环境 -
获取项目代码
git clone https://gitcode.com/gh_mirrors/sho/ShowUI # 克隆仓库 cd ShowUI # 进入项目目录 -
安装依赖包
pip install -r requirements.txt # 安装核心依赖
⚠️ 环境风险提示
- PyTorch与TensorFlow无需同时安装,根据模型配置选择其一
- 建议使用CUDA 11.7+版本以获得最佳性能,CPU模式下推理速度会显著降低
- Windows系统需额外安装Microsoft C++ Build Tools
启动交互式服务
-
启动Gradio可视化界面
python api.py # 启动Web服务,默认端口7860 -
访问交互界面
服务启动后,通过浏览器访问http://localhost:7860,界面包含:- 图像上传区域:支持截图或界面图片输入
- 指令输入框:用于输入自然语言操作指令
- 结果展示区:显示模型解析过程与执行结果

图1:ShowUI界面交互演示,红色网格线展示模型对界面元素的识别结果
📌 部署要点总结
- 首次启动需下载预训练模型(约8GB),建议配置网络代理加速下载
- 服务默认使用CPU推理,添加
--device cuda参数启用GPU加速 - 生产环境部署需添加
--server_name 0.0.0.0参数允许外部访问
三、进阶实践:从基础应用到定制开发
构建多模态UI自动化测试
-
测试场景定义
创建测试用例配置文件(JSON格式):{ "test_case": "电商购物流程", "steps": [ "打开购物网站首页", "搜索商品"笔记本电脑"", "选择价格区间3000-5000元", "添加第一个商品到购物车" ], "expected_result": "购物车商品数量增加1" } -
执行自动化测试
python main/evaluator.py --test_case tests/shopping_test.json -
生成测试报告
测试完成后在results/目录下生成包含:- 界面元素识别准确率
- 指令执行成功率
- 操作过程录屏(需安装ffmpeg)

图2:电商购物界面自动化测试场景,展示商品选择与购物车操作流程
模型微调与性能优化
-
准备自定义数据集
按照项目data/template/目录下的格式要求,准备包含:- 界面截图(PNG/JPG格式)
- 操作指令文本
- 动作标注数据(点击坐标、输入内容等)
-
启动微调训练
python train.py \ --model_name_or_path model/showui \ --train_data data/custom_dataset \ --output_dir finetuned_model \ --num_train_epochs 5
⚠️ 训练风险提示
- 微调至少需要16GB显存,建议使用NVIDIA A100或同等配置GPU
- 自定义数据集规模建议不小于1000样本,否则易导致过拟合
- 训练前需运行
prepare/hf_*.py脚本进行数据格式转换
📌 进阶实践总结
- 多模态测试框架支持Web、移动端应用的自动化验证,降低回归测试成本
- 针对特定领域界面微调模型可将操作准确率提升30%以上
- 结合
ds_configs/目录下的配置文件可实现分布式训练加速
四、生态扩展:构建GUI智能体应用生态
核心生态项目对比
| 项目名称 | 技术特点 | 适用场景 | 与ShowUI集成方式 |
|---|---|---|---|
| Mind2Web | 基于WebDOM的精细交互 | 复杂网页自动化 | 通过dset_mind2web.py数据适配器 |
| AITW | 多模态界面理解标注工具 | 数据集构建 | 提供eval_aitw.py评估接口 |
| Miniwob | 轻量级界面任务集 | 模型快速验证 | 包含dset_miniwob.py数据集加载器 |
低代码集成方案
-
Python API调用
from model.showui import ShowUI # 初始化模型 model = ShowUI(model_path="model/showui") # 执行界面操作 result = model.predict( image_path="screenshots/app_interface.png", instruction="点击设置按钮并开启深色模式" ) print(result["action_sequence"]) # 输出动作序列 -
第三方系统集成
通过RESTful API与现有测试框架集成:curl -X POST http://localhost:7860/api/predict \ -H "Content-Type: application/json" \ -d '{"image": "base64_image_data", "instruction": "填写登录表单"}'
📌 生态扩展总结
- ShowUI生态系统覆盖数据标注、模型训练到应用部署的全流程工具链
- 提供灵活的API接口,支持与Selenium、Appium等传统自动化工具协同工作
- 通过
examples/目录下的场景示例,可快速复现各类GUI交互任务
提示:完整技术文档与最新更新请参考项目根目录下的
README.md和TRAIN.md文件。
登录后查看全文
热门项目推荐
相关项目推荐
GLM-5智谱 AI 正式发布 GLM-5,旨在应对复杂系统工程和长时域智能体任务。Jinja00
GLM-5.1GLM-5.1是智谱迄今最智能的旗舰模型,也是目前全球最强的开源模型。GLM-5.1大大提高了代码能力,在完成长程任务方面提升尤为显著。和此前分钟级交互的模型不同,它能够在一次任务中独立、持续工作超过8小时,期间自主规划、执行、自我进化,最终交付完整的工程级成果。Jinja00
LongCat-AudioDiT-1BLongCat-AudioDiT 是一款基于扩散模型的文本转语音(TTS)模型,代表了当前该领域的最高水平(SOTA),它直接在波形潜空间中进行操作。00- QQwen3.5-397B-A17BQwen3.5 实现了重大飞跃,整合了多模态学习、架构效率、强化学习规模以及全球可访问性等方面的突破性进展,旨在为开发者和企业赋予前所未有的能力与效率。Jinja00
AtomGit城市坐标计划AtomGit 城市坐标计划开启!让开源有坐标,让城市有星火。致力于与城市合伙人共同构建并长期运营一个健康、活跃的本地开发者生态。01
CAP基于最终一致性的微服务分布式事务解决方案,也是一种采用 Outbox 模式的事件总线。C#00
项目优选
收起
OpenHarmony documentation | OpenHarmony开发者文档
Dockerfile
647
4.21 K
Ascend Extension for PyTorch
Python
483
589
openEuler内核是openEuler操作系统的核心,既是系统性能与稳定性的基石,也是连接处理器、设备与服务的桥梁。
C
388
277
本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。
C++
935
844
Oohos_react_native
React Native鸿蒙化仓库
JavaScript
331
386
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
1.52 K
877
昇腾LLM分布式训练框架
Python
141
165
deepin linux kernel
C
27
14
暂无简介
Dart
895
214
仓颉编程语言运行时与标准库。
Cangjie
161
923