从零开始:桌面自动化工具UI-TARS部署指南
UI-TARS是一款基于视觉语言模型(Vision-Language Model)的桌面自动化工具,它能够将自然语言指令转化为精准的GUI(图形用户界面)操作,帮助用户自动化重复的桌面任务。无论是文件管理、浏览器操作还是应用控制,UI-TARS都能通过直观的自然语言交互实现高效自动化。本指南适用于希望提升工作效率的办公人士、开发者以及所有需要简化重复操作的电脑用户。
准备篇:环境搭建与安装
1.1 系统要求
UI-TARS支持Windows和macOS双平台,在开始安装前,请确保您的系统满足以下最低要求:
- Windows:Windows 10或更高版本,64位系统,至少4GB内存
- macOS:macOS 10.15(Catalina)或更高版本,至少4GB内存
1.2 获取安装包
首先需要从项目仓库克隆源代码:
git clone https://gitcode.com/GitHub_Trending/ui/UI-TARS-desktop
1.3 平台安装步骤
macOS系统安装
- 进入项目目录,找到macOS安装包
- 将UI-TARS应用拖拽到"应用程序"文件夹中
macOS系统下的UI-TARS安装界面,显示将应用拖拽到应用程序文件夹
Windows系统安装
- 进入项目目录,找到Windows安装程序(.exe文件)
- 双击运行安装程序,当出现"Windows已保护你的电脑"提示时,点击"更多信息",然后选择"仍要运行"
Windows系统智能屏幕保护提示界面,需选择"仍要运行"以继续安装
1.4 权限配置
⚠️ 重要注意事项:UI-TARS需要系统权限才能正常工作,首次启动时请务必授予以下权限:
- 辅助功能权限:允许UI-TARS控制应用程序
- 屏幕录制权限:允许UI-TARS"看到"屏幕内容
💡 技巧提示:在macOS系统中,这些权限可以在"系统偏好设置 > 安全性与隐私 > 隐私"中找到并启用。Windows系统会在安装过程中自动请求这些权限。
完成以上步骤后,您的UI-TARS应用已成功安装在系统中。接下来我们将进行模型服务的配置,这是实现自动化功能的核心环节。
配置篇:模型服务与参数设置
2.1 模型服务选择
UI-TARS需要连接到视觉语言模型服务才能将自然语言转化为GUI操作。目前支持两种主流模型服务提供商,您可以根据自身需求选择:
| 配置项 | Hugging Face | 火山引擎 |
|---|---|---|
| 模型名称 | UI-TARS-1.5-7B | Doubao-1.5-UI-TARS |
| 访问方式 | API密钥 | API密钥 |
| 适用场景 | 开源研究、个人使用 | 企业级应用、商业场景 |
| 优势 | 开源免费、社区支持 | 稳定性高、技术支持完善 |
2.2 Hugging Face模型配置
- 访问Hugging Face平台,搜索并选择"UI-TARS-1.5-7B"模型
- 部署模型服务并获取Base URL和API密钥
- 打开UI-TARS应用,进入设置界面
- 在VLM设置中选择"OpenAI compatible for UI-TARS-1.5"
- 输入获取到的Base URL、API密钥和模型名称
- 点击"Save"保存配置
UI-TARS的Hugging Face模型配置界面,显示模型提供商选择和参数输入区域
2.3 火山引擎模型配置
- 登录火山引擎控制台,找到Doubao-1.5-UI-TARS模型
- 在API接入页面创建API密钥
- 记录API密钥和服务地址信息
火山引擎API接入界面,展示API密钥获取和代码示例
- 打开UI-TARS应用,进入设置界面
- 在VLM提供商下拉菜单中选择"VolcEngine Ark for Doubao-1.5-UI-TARS"
UI-TARS的VLM提供商选择界面,显示可选用的模型服务
- 输入从火山引擎获取的API密钥和服务地址
- 点击"Save"保存配置
🔍 故障排除:如果配置后无法连接模型服务,请检查网络连接和API密钥是否正确,或尝试使用不同的模型服务提供商。
完成模型服务配置后,UI-TARS已准备就绪,接下来我们将通过实际案例展示如何使用这一强大的桌面自动化工具。
实战篇:应用场景与操作示例
3.1 本地计算机自动化
本地计算机模式允许UI-TARS直接控制您的桌面应用程序,完成各种操作任务。
操作步骤:
- 打开UI-TARS应用
- 在左侧导航栏选择"Local Computer Operator"
- 在输入框中输入自然语言指令
- 点击发送按钮执行任务
UI-TARS本地计算机操作界面,显示任务输入框和执行区域
示例1:文件管理自动化
指令:"在桌面上创建一个名为'UI-TARS-Projects'的新文件夹,并将下载文件夹中的所有PDF文件移动到该文件夹中"
UI-TARS将自动完成以下操作:
- 打开文件资源管理器/访达
- 导航到桌面
- 创建新文件夹并命名
- 打开下载文件夹
- 筛选PDF文件
- 移动文件到新文件夹
3.2 浏览器自动化控制
浏览器模式允许UI-TARS控制网页浏览器,自动完成网页浏览和交互任务。
操作步骤:
- 打开UI-TARS应用
- 在左侧导航栏选择"Remote Browser Operator"
- 在输入框中输入自然语言指令
- 点击发送按钮执行任务
UI-TARS浏览器自动化控制界面,支持鼠标控制和远程操作
示例2:信息收集自动化
指令:"搜索最近一周内关于人工智能领域的重要新闻,并将标题和链接保存到文本文件中"
UI-TARS将自动完成以下操作:
- 打开浏览器
- 访问搜索引擎
- 执行搜索查询
- 筛选最近一周的结果
- 提取标题和链接
- 创建并保存文本文件
3.3 任务报告生成
UI-TARS能够自动生成任务执行报告,方便用户跟踪和分享自动化操作结果。
示例3:天气查询与报告
指令:"查询上海明天的天气情况,并生成报告"
执行完成后,UI-TARS会显示"Report link copied to clipboard"提示,报告链接已复制到剪贴板,您可以将其粘贴到任何应用中查看详细报告。
UI-TARS任务执行成功界面,显示报告链接已复制到剪贴板
💡 技巧提示:您可以通过"Report Settings"自定义报告格式和内容,包括是否包含截图、操作步骤详细程度等。
通过以上示例,您已经了解了UI-TARS的基本使用方法。接下来我们将介绍一些高级配置和优化技巧,帮助您更好地发挥这款自动化工具的潜力。
进阶篇:优化配置与高级功能
4.1 性能优化配置
为了获得最佳的自动化体验,您可以根据硬件配置和网络环境调整以下参数:
- 模型推理参数:在设置界面的"Advanced"选项卡中,可以调整模型推理的温度(temperature)和最大 tokens 数,平衡生成速度和准确性。
- 截图质量设置:降低截图分辨率可以提高处理速度,适合低配置电脑或网络条件较差的环境。
- 操作延迟调整:根据应用响应速度,适当调整操作之间的延迟时间,避免因应用未响应导致的操作失败。
4.2 自定义预设配置
UI-TARS允许您创建和导入自定义预设配置,以适应特定场景的自动化需求:
- 在设置界面点击"Import Preset Config"按钮
- 选择预设配置文件(.yaml格式)
- 应用预设后,UI-TARS将使用预设的参数和策略执行任务
预设配置文件可以在项目的examples/presets/目录中找到,您也可以根据需要创建自己的预设文件。
4.3 高级操作技巧
- 多步骤任务链:可以通过分号分隔多个指令,实现复杂的多步骤自动化流程。
- 条件判断:使用"如果...则..."句式,实现基于条件的自动化操作。
- 循环操作:使用"重复..."句式,实现重复性任务的自动化。
4.4 扩展与集成
UI-TARS提供了丰富的扩展接口,可以与其他工具和服务集成:
- API接口:通过
packages/ui-tars/sdk/目录下的SDK,可以将UI-TARS集成到自己的应用中。 - 插件系统:在
packages/ui-tars/operators/目录下可以找到各种操作器插件,也可以开发自定义插件扩展功能。
总结与资源
通过本指南,您已经掌握了UI-TARS桌面自动化工具的部署和基本使用方法。从环境准备到模型配置,再到实际应用,UI-TARS提供了一套完整的桌面自动化解决方案,帮助您通过自然语言指令轻松控制电脑。
官方文档与资源
- 详细文档:项目中的
docs/目录包含完整的使用文档和API参考 - 示例代码:
examples/目录提供了各种自动化场景的示例配置和代码 - SDK开发:
packages/ui-tars/sdk/目录包含开发工具包,可用于扩展UI-TARS功能
社区支持
- GitHub Issues:通过项目仓库的Issues功能提交问题和建议
- 讨论论坛:项目社区论坛提供用户交流和经验分享
- 更新日志:
CHANGELOG.md文件记录了各版本的功能更新和改进
UI-TARS的强大之处在于它的持续学习能力和社区支持。随着使用的深入,您会发现越来越多提高工作效率的自动化场景。现在就开始探索UI-TARS的无限可能,让自动化为您的工作和生活带来更多便利!
atomcodeClaude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get StartedRust0147- DDeepSeek-V4-ProDeepSeek-V4-Pro(总参数 1.6 万亿,激活 49B)面向复杂推理和高级编程任务,在代码竞赛、数学推理、Agent 工作流等场景表现优异,性能接近国际前沿闭源模型。Python00
GLM-5.1GLM-5.1是智谱迄今最智能的旗舰模型,也是目前全球最强的开源模型。GLM-5.1大大提高了代码能力,在完成长程任务方面提升尤为显著。和此前分钟级交互的模型不同,它能够在一次任务中独立、持续工作超过8小时,期间自主规划、执行、自我进化,最终交付完整的工程级成果。Jinja00
auto-devAutoDev 是一个 AI 驱动的辅助编程插件。AutoDev 支持一键生成测试、代码、提交信息等,还能够与您的需求管理系统(例如Jira、Trello、Github Issue 等)直接对接。 在IDE 中,您只需简单点击,AutoDev 会根据您的需求自动为您生成代码。Kotlin03
Intern-S2-PreviewIntern-S2-Preview,这是一款高效的350亿参数科学多模态基础模型。除了常规的参数与数据规模扩展外,Intern-S2-Preview探索了任务扩展:通过提升科学任务的难度、多样性与覆盖范围,进一步释放模型能力。Python00
skillhubopenJiuwen 生态的 Skill 托管与分发开源方案,支持自建与可选 ClawHub 兼容。Python0111







