ShowUI:端到端GUI智能体开发全指南
2026-04-03 09:20:37作者:郜逊炳
一、核心价值:重新定义GUI自动化交互
ShowUI是一款开源的端到端视觉-语言-动作(Vision-Language-Action)模型,专为图形用户界面(GUI)智能体设计。通过融合计算机视觉与自然语言处理技术,实现对各类GUI界面的自动化理解与操作,为开发者提供开箱即用的智能交互解决方案。
解析多模态交互范式
ShowUI创新性地将视觉感知、语言理解与动作执行深度融合,构建了"观察-理解-行动"的完整闭环。其核心优势在于:
- 跨平台兼容性:支持Web、移动应用及桌面软件的GUI识别
- 零代码适配:无需预先定义界面元素坐标,直接通过视觉语义理解界面结构
- 自然语言驱动:支持以自然语言指令控制界面操作流程
技术架构解析
模型采用分层架构设计,包含:
- 视觉编码器:基于Qwen2-VL模型优化的界面元素检测与语义理解模块
- 指令解析器:将自然语言指令转化为可执行的动作序列
- 动作执行器:生成符合GUI规范的操作指令(点击、输入、滚动等)
📌 核心价值总结
- 突破传统GUI自动化对固定坐标的依赖,实现基于视觉语义的智能交互
- 支持多模态输入(图像+文本),降低复杂界面的自动化门槛
- 提供完整的训练与部署工具链,支持从研究到生产环境的无缝迁移
二、场景化部署:从环境配置到服务启动
极速配置开发环境
-
准备基础依赖
确保系统已安装Python 3.10+及pip包管理器,推荐使用conda创建独立环境:conda create -n showui python=3.10 # 创建虚拟环境 conda activate showui # 激活环境 -
获取项目代码
git clone https://gitcode.com/gh_mirrors/sho/ShowUI # 克隆仓库 cd ShowUI # 进入项目目录 -
安装依赖包
pip install -r requirements.txt # 安装核心依赖
⚠️ 环境风险提示
- PyTorch与TensorFlow无需同时安装,根据模型配置选择其一
- 建议使用CUDA 11.7+版本以获得最佳性能,CPU模式下推理速度会显著降低
- Windows系统需额外安装Microsoft C++ Build Tools
启动交互式服务
-
启动Gradio可视化界面
python api.py # 启动Web服务,默认端口7860 -
访问交互界面
服务启动后,通过浏览器访问http://localhost:7860,界面包含:- 图像上传区域:支持截图或界面图片输入
- 指令输入框:用于输入自然语言操作指令
- 结果展示区:显示模型解析过程与执行结果

图1:ShowUI界面交互演示,红色网格线展示模型对界面元素的识别结果
📌 部署要点总结
- 首次启动需下载预训练模型(约8GB),建议配置网络代理加速下载
- 服务默认使用CPU推理,添加
--device cuda参数启用GPU加速 - 生产环境部署需添加
--server_name 0.0.0.0参数允许外部访问
三、进阶实践:从基础应用到定制开发
构建多模态UI自动化测试
-
测试场景定义
创建测试用例配置文件(JSON格式):{ "test_case": "电商购物流程", "steps": [ "打开购物网站首页", "搜索商品"笔记本电脑"", "选择价格区间3000-5000元", "添加第一个商品到购物车" ], "expected_result": "购物车商品数量增加1" } -
执行自动化测试
python main/evaluator.py --test_case tests/shopping_test.json -
生成测试报告
测试完成后在results/目录下生成包含:- 界面元素识别准确率
- 指令执行成功率
- 操作过程录屏(需安装ffmpeg)

图2:电商购物界面自动化测试场景,展示商品选择与购物车操作流程
模型微调与性能优化
-
准备自定义数据集
按照项目data/template/目录下的格式要求,准备包含:- 界面截图(PNG/JPG格式)
- 操作指令文本
- 动作标注数据(点击坐标、输入内容等)
-
启动微调训练
python train.py \ --model_name_or_path model/showui \ --train_data data/custom_dataset \ --output_dir finetuned_model \ --num_train_epochs 5
⚠️ 训练风险提示
- 微调至少需要16GB显存,建议使用NVIDIA A100或同等配置GPU
- 自定义数据集规模建议不小于1000样本,否则易导致过拟合
- 训练前需运行
prepare/hf_*.py脚本进行数据格式转换
📌 进阶实践总结
- 多模态测试框架支持Web、移动端应用的自动化验证,降低回归测试成本
- 针对特定领域界面微调模型可将操作准确率提升30%以上
- 结合
ds_configs/目录下的配置文件可实现分布式训练加速
四、生态扩展:构建GUI智能体应用生态
核心生态项目对比
| 项目名称 | 技术特点 | 适用场景 | 与ShowUI集成方式 |
|---|---|---|---|
| Mind2Web | 基于WebDOM的精细交互 | 复杂网页自动化 | 通过dset_mind2web.py数据适配器 |
| AITW | 多模态界面理解标注工具 | 数据集构建 | 提供eval_aitw.py评估接口 |
| Miniwob | 轻量级界面任务集 | 模型快速验证 | 包含dset_miniwob.py数据集加载器 |
低代码集成方案
-
Python API调用
from model.showui import ShowUI # 初始化模型 model = ShowUI(model_path="model/showui") # 执行界面操作 result = model.predict( image_path="screenshots/app_interface.png", instruction="点击设置按钮并开启深色模式" ) print(result["action_sequence"]) # 输出动作序列 -
第三方系统集成
通过RESTful API与现有测试框架集成:curl -X POST http://localhost:7860/api/predict \ -H "Content-Type: application/json" \ -d '{"image": "base64_image_data", "instruction": "填写登录表单"}'
📌 生态扩展总结
- ShowUI生态系统覆盖数据标注、模型训练到应用部署的全流程工具链
- 提供灵活的API接口,支持与Selenium、Appium等传统自动化工具协同工作
- 通过
examples/目录下的场景示例,可快速复现各类GUI交互任务
提示:完整技术文档与最新更新请参考项目根目录下的
README.md和TRAIN.md文件。
登录后查看全文
热门项目推荐
相关项目推荐
atomcodeClaude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get StartedRust0152- DDeepSeek-V4-ProDeepSeek-V4-Pro(总参数 1.6 万亿,激活 49B)面向复杂推理和高级编程任务,在代码竞赛、数学推理、Agent 工作流等场景表现优异,性能接近国际前沿闭源模型。Python00
LongCat-Video-Avatar-1.5最新开源LongCat-Video-Avatar 1.5 版本,这是一款经过升级的开源框架,专注于音频驱动人物视频生成的极致实证优化与生产级就绪能力。该版本在 LongCat-Video 基础模型之上构建,可生成高度稳定的商用级虚拟人视频,支持音频-文本转视频(AT2V)、音频-文本-图像转视频(ATI2V)以及视频续播等原生任务,并能无缝兼容单流与多流音频输入。00
auto-devAutoDev 是一个 AI 驱动的辅助编程插件。AutoDev 支持一键生成测试、代码、提交信息等,还能够与您的需求管理系统(例如Jira、Trello、Github Issue 等)直接对接。 在IDE 中,您只需简单点击,AutoDev 会根据您的需求自动为您生成代码。Kotlin03
Intern-S2-PreviewIntern-S2-Preview,这是一款高效的350亿参数科学多模态基础模型。除了常规的参数与数据规模扩展外,Intern-S2-Preview探索了任务扩展:通过提升科学任务的难度、多样性与覆盖范围,进一步释放模型能力。Python00
skillhubopenJiuwen 生态的 Skill 托管与分发开源方案,支持自建与可选 ClawHub 兼容。Python0112
热门内容推荐
最新内容推荐
项目优选
收起
暂无描述
Dockerfile
733
4.75 K
Ascend Extension for PyTorch
Python
618
795
openEuler内核是openEuler操作系统的核心,既是系统性能与稳定性的基石,也是连接处理器、设备与服务的桥梁。
C
433
395
本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。
C++
1.01 K
1.01 K
Claude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed.
Get Started
Rust
1.18 K
152
deepin linux kernel
C
29
16
华为昇腾面向大规模分布式训练的多模态大模型套件,支撑多模态生成、多模态理解。
Python
145
237
暂无简介
Dart
983
252
昇腾LLM分布式训练框架
Python
166
198
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
1.68 K
989