从零开始：桌面自动化工具UI-TARS部署指南

2026-04-29 11:46:28作者：宣海椒Queenly

UI-TARS是一款基于视觉语言模型（Vision-Language Model）的桌面自动化工具，它能够将自然语言指令转化为精准的GUI（图形用户界面）操作，帮助用户自动化重复的桌面任务。无论是文件管理、浏览器操作还是应用控制，UI-TARS都能通过直观的自然语言交互实现高效自动化。本指南适用于希望提升工作效率的办公人士、开发者以及所有需要简化重复操作的电脑用户。

准备篇：环境搭建与安装

1.1 系统要求

UI-TARS支持Windows和macOS双平台，在开始安装前，请确保您的系统满足以下最低要求：

Windows：Windows 10或更高版本，64位系统，至少4GB内存
macOS：macOS 10.15（Catalina）或更高版本，至少4GB内存

1.2 获取安装包

首先需要从项目仓库克隆源代码：

git clone https://gitcode.com/GitHub_Trending/ui/UI-TARS-desktop

1.3 平台安装步骤

macOS系统安装

进入项目目录，找到macOS安装包
将UI-TARS应用拖拽到"应用程序"文件夹中

macOS系统下的UI-TARS安装界面，显示将应用拖拽到应用程序文件夹

Windows系统安装

进入项目目录，找到Windows安装程序（.exe文件）
双击运行安装程序，当出现"Windows已保护你的电脑"提示时，点击"更多信息"，然后选择"仍要运行"

Windows系统智能屏幕保护提示界面，需选择"仍要运行"以继续安装

1.4 权限配置

⚠️ 重要注意事项：UI-TARS需要系统权限才能正常工作，首次启动时请务必授予以下权限：

辅助功能权限：允许UI-TARS控制应用程序
屏幕录制权限：允许UI-TARS"看到"屏幕内容

💡 技巧提示：在macOS系统中，这些权限可以在"系统偏好设置 > 安全性与隐私 > 隐私"中找到并启用。Windows系统会在安装过程中自动请求这些权限。

完成以上步骤后，您的UI-TARS应用已成功安装在系统中。接下来我们将进行模型服务的配置，这是实现自动化功能的核心环节。

配置篇：模型服务与参数设置

2.1 模型服务选择

UI-TARS需要连接到视觉语言模型服务才能将自然语言转化为GUI操作。目前支持两种主流模型服务提供商，您可以根据自身需求选择：

配置项	Hugging Face	火山引擎
模型名称	UI-TARS-1.5-7B	Doubao-1.5-UI-TARS
访问方式	API密钥	API密钥
适用场景	开源研究、个人使用	企业级应用、商业场景
优势	开源免费、社区支持	稳定性高、技术支持完善

2.2 Hugging Face模型配置

访问Hugging Face平台，搜索并选择"UI-TARS-1.5-7B"模型
部署模型服务并获取Base URL和API密钥
打开UI-TARS应用，进入设置界面
在VLM设置中选择"OpenAI compatible for UI-TARS-1.5"
输入获取到的Base URL、API密钥和模型名称
点击"Save"保存配置

UI-TARS的Hugging Face模型配置界面，显示模型提供商选择和参数输入区域

2.3 火山引擎模型配置

登录火山引擎控制台，找到Doubao-1.5-UI-TARS模型
在API接入页面创建API密钥
记录API密钥和服务地址信息

火山引擎API接入界面，展示API密钥获取和代码示例

打开UI-TARS应用，进入设置界面
在VLM提供商下拉菜单中选择"VolcEngine Ark for Doubao-1.5-UI-TARS"

UI-TARS的VLM提供商选择界面，显示可选用的模型服务

输入从火山引擎获取的API密钥和服务地址
点击"Save"保存配置

🔍 故障排除：如果配置后无法连接模型服务，请检查网络连接和API密钥是否正确，或尝试使用不同的模型服务提供商。

完成模型服务配置后，UI-TARS已准备就绪，接下来我们将通过实际案例展示如何使用这一强大的桌面自动化工具。

实战篇：应用场景与操作示例

3.1 本地计算机自动化

本地计算机模式允许UI-TARS直接控制您的桌面应用程序，完成各种操作任务。

操作步骤：

打开UI-TARS应用
在左侧导航栏选择"Local Computer Operator"
在输入框中输入自然语言指令
点击发送按钮执行任务

UI-TARS本地计算机操作界面，显示任务输入框和执行区域

示例1：文件管理自动化

指令："在桌面上创建一个名为'UI-TARS-Projects'的新文件夹，并将下载文件夹中的所有PDF文件移动到该文件夹中"

UI-TARS将自动完成以下操作：

打开文件资源管理器/访达
导航到桌面
创建新文件夹并命名
打开下载文件夹
筛选PDF文件
移动文件到新文件夹

3.2 浏览器自动化控制

浏览器模式允许UI-TARS控制网页浏览器，自动完成网页浏览和交互任务。

操作步骤：

打开UI-TARS应用
在左侧导航栏选择"Remote Browser Operator"
在输入框中输入自然语言指令
点击发送按钮执行任务

UI-TARS浏览器自动化控制界面，支持鼠标控制和远程操作

示例2：信息收集自动化

指令："搜索最近一周内关于人工智能领域的重要新闻，并将标题和链接保存到文本文件中"

UI-TARS将自动完成以下操作：

打开浏览器
访问搜索引擎
执行搜索查询
筛选最近一周的结果
提取标题和链接
创建并保存文本文件

3.3 任务报告生成

UI-TARS能够自动生成任务执行报告，方便用户跟踪和分享自动化操作结果。

示例3：天气查询与报告

指令："查询上海明天的天气情况，并生成报告"

执行完成后，UI-TARS会显示"Report link copied to clipboard"提示，报告链接已复制到剪贴板，您可以将其粘贴到任何应用中查看详细报告。

UI-TARS任务执行成功界面，显示报告链接已复制到剪贴板

💡 技巧提示：您可以通过"Report Settings"自定义报告格式和内容，包括是否包含截图、操作步骤详细程度等。

通过以上示例，您已经了解了UI-TARS的基本使用方法。接下来我们将介绍一些高级配置和优化技巧，帮助您更好地发挥这款自动化工具的潜力。

进阶篇：优化配置与高级功能

4.1 性能优化配置

为了获得最佳的自动化体验，您可以根据硬件配置和网络环境调整以下参数：

模型推理参数：在设置界面的"Advanced"选项卡中，可以调整模型推理的温度（temperature）和最大 tokens 数，平衡生成速度和准确性。
截图质量设置：降低截图分辨率可以提高处理速度，适合低配置电脑或网络条件较差的环境。
操作延迟调整：根据应用响应速度，适当调整操作之间的延迟时间，避免因应用未响应导致的操作失败。