零基础上手UI-TARS：从环境搭建到任务执行全流程指南

2026-04-05 08:59:29作者：江焘钦

UI-TARS桌面版是一款基于视觉语言模型（VLM，可理解图像并生成操作指令的AI系统） 的智能GUI操作工具，能够通过自然语言指令完成各种桌面操作任务。就像给电脑配备了一位能听懂人话的助理，你只需告诉它"打开浏览器搜索天气"或"填写这份表单"，它就能自动完成相应操作。本文将带你从零开始，完成从环境配置到实际任务执行的全流程。

【功能概览】UI-TARS能为你做什么

想象一下，你只需打字告诉电脑"帮我整理桌面上的文件"，系统就会自动分类整理；或者说"在浏览器中填写这个注册表单"，AI就会识别界面元素并完成输入。这就是UI-TARS带来的全新交互体验。

核心能力包括：

跨应用操作：控制浏览器、办公软件等各类桌面应用
自然语言理解：用日常语言描述任务，无需学习复杂命令
视觉识别："看见"屏幕内容并理解界面元素含义
自动化执行：模拟鼠标点击、键盘输入等操作

适用场景覆盖日常办公、软件开发、数据处理等多个领域，尤其适合重复性高、操作繁琐的任务自动化。

【环境检查】准备你的系统与工具

在开始安装前，请确保你的系统满足以下条件，这将直接影响后续使用体验：

系统要求对照表

项目	最低配置	推荐配置
操作系统	macOS 10.15+ 或 Windows 10+	macOS 12.0+ 或 Windows 11
处理器	双核CPU	四核及以上CPU
内存	8GB RAM	16GB RAM
显示器	单显示器	1920×1080及以上分辨率单显示器
网络	稳定互联网连接	5Mbps以上带宽

⚠️ 重要注意事项：目前UI-TARS仅支持单显示器配置，多显示器环境可能导致操作定位不准确。

浏览器兼容性列表

如果需要使用浏览器自动化功能，请确保安装以下任一浏览器：

Chrome（稳定版/测试版/开发版/Canary版）
Edge（稳定版/测试版/开发版/Canary版）
Firefox（稳定版/测试版/开发版/Nightly版）

[!TIP] 建议使用Chrome最新版以获得最佳兼容性，部分高级功能可能依赖最新浏览器API。

【环境部署】从安装到配置的完整流程

基础环境配置

macOS系统安装

1️⃣ 获取安装包：从项目仓库克隆代码

git clone https://gitcode.com/GitHub_Trending/ui/UI-TARS-desktop

2️⃣ 安装应用：将"UI TARS"应用拖拽至"应用程序"文件夹

图：macOS系统中将UI-TARS拖拽到应用程序文件夹

3️⃣ 权限配置：这是确保UI-TARS能正常工作的关键步骤

图：macOS系统权限设置界面

🔍 检查点：

进入系统设置 > 隐私与安全性 > 辅助功能，启用UI TARS权限
进入系统设置 > 隐私与安全性 > 屏幕录制，添加UI TARS权限
完成后重启应用使权限生效

Windows系统安装

1️⃣ 获取安装包：从项目仓库克隆代码

git clone https://gitcode.com/GitHub_Trending/ui/UI-TARS-desktop

2️⃣ 运行安装程序：双击运行UI-TARS的安装文件

3️⃣ 处理安全提示：Windows Defender可能会显示安全警告

图：Windows系统安全提示界面

⚠️ 注意项：点击"更多信息"，然后选择"仍要运行"以继续安装

模型服务对接

模型配置就像给手机安装SIM卡，正确配置才能让UI-TARS"联网"获取AI能力。目前支持两种主流模型服务：

方法一：Hugging Face上的UI-TARS-1.5模型

1️⃣ 模型部署：

在Hugging Face平台找到UI-TARS-1.5-7B模型
点击"Deploy from Hugging Face"按钮开始部署

2️⃣ 获取连接信息：

按照部署指南获取Base URL、API Key和Model Name
确保Base URL以'/v1/'结尾

3️⃣ 应用配置：

图：UI-TARS中Hugging Face模型配置界面

# 模型配置文件示例
Language: en  # 界面语言设置，en为英文，cn为中文
VLM Provider: OpenAI compatible for UI-TARS-1.5  # 模型提供商选择
VLM Base URL: https://your-deployment-url/v1/  # 部署的模型基础URL
VLM API KEY: your_api_key_here  # 访问API的密钥
VLM Model Name: ui-tars-1.5-7b  # 模型名称，需与部署的模型一致

方法二：VolcEngine上的Doubao-1.5-UI-TARS模型

1️⃣ 访问模型页面：

登录VolcEngine平台，找到Doubao-1.5-UI-TARS模型

2️⃣ 获取API信息：

图：VolcEngine API密钥获取界面

点击"立即体验" > "API接入"
在STEP 1获取API Key
在STEP 2的OpenAI SDK标签页获取Base Url和Model name

3️⃣ 应用配置：

# 火山引擎模型配置示例
Language: cn  # 选择中文界面
VLM Provider: VolcEngine Ark for Doubao-1.5-UI-TARS  # 选择火山引擎提供商
VLM Base URL: https://ark.cn-beijing.volces.com/api/v3  # 火山引擎API基础地址
VLM API KEY: your_volcengine_api_key  # 火山引擎API密钥
VLM Model Name: doubao-1.5-ui-tars-250328  # 模型名称

🔍 验证方法：配置完成后，点击"测试连接"按钮，如果显示"连接成功"则表示模型配置正确。

【场景实践】三个实用任务案例

案例一：浏览器自动表单填写

这个案例将演示如何让UI-TARS自动填写网页表单，适用于各类重复性数据录入工作。

1️⃣ 准备工作：

确保浏览器已安装并在设置中选择了正确的浏览器路径
准备好需要填写的表单URL

2️⃣ 执行步骤：

打开UI-TARS应用，在左侧菜单选择"浏览器操作"模式
在输入框中输入指令："打开https://example.com/form页面，填写姓名为张三，邮箱为zhangsan@example.com，电话为13800138000，然后点击提交按钮"
点击发送按钮，观察UI-TARS的自动操作过程

💡 技巧提示：指令越具体，执行效果越好。可以指定元素的位置描述，如"页面顶部的用户名输入框"。

案例二：GitHub项目最新Issue检查

这个案例展示如何利用UI-TARS完成开发相关任务，自动获取项目信息。

图：输入任务指令界面

1️⃣ 执行步骤：

在UI-TARS主界面输入框中输入指令："帮我检查UI-TARS-Desktop项目在GitCode上的最新开放Issue"
点击发送按钮
等待几秒后，UI-TARS会自动打开浏览器，访问项目页面并提取最新Issue信息

2️⃣ 预期结果：

应用会显示最新的3-5个开放Issue标题和链接
可点击链接直接跳转到对应Issue页面

案例三：网页内容提取与整理

这个案例展示如何让UI-TARS从网页中提取特定信息并整理成结构化格式。

图：UI-TARS浏览器控制界面

1️⃣ 执行步骤：

在UI-TARS中选择"远程浏览器操作"模式
输入指令："访问今日头条网站，提取首页的前5条新闻标题和链接，保存为Markdown格式"
点击发送按钮

2️⃣ 结果查看：

完成后，UI-TARS会显示提取结果
可通过"导出"按钮将结果保存为.md文件

💡 技巧提示：对于复杂的信息提取任务，可以分步骤下达指令，如"先打开网站，然后告诉我有哪些新闻分类，然后提取科技分类下的文章"。

【问题解决】常见问题速查

安装与启动问题

Q: macOS系统提示"UI TARS已损坏，无法打开"怎么办？
A: 打开终端，输入以下命令后重试：

xattr -d com.apple.quarantine /Applications/UI\ TARS.app

Q: Windows安装后无法启动，没有任何反应？
A: 检查是否安装了.NET Framework 4.8或更高版本，可从微软官网下载安装。

权限与操作问题

Q: UI-TARS无法点击屏幕或输入文字怎么办？
A: 确保已授予辅助功能和屏幕录制权限，然后重启应用。在macOS系统中，有时需要在安全设置中先关闭权限再重新打开。

Q: 执行任务时鼠标乱动或点击错误位置？
A: 这通常是因为屏幕分辨率或缩放比例设置问题。尝试将显示器分辨率设置为100%缩放，或在应用设置中调整"操作精度"参数。

模型与连接问题

Q: 提示"模型连接失败"如何解决？
A: 按以下步骤检查：

确认API Key是否正确，注意是否有空格或特殊字符
检查网络连接，尝试访问Base URL看是否能正常连接
确认模型名称是否与部署的模型完全一致
检查防火墙设置，确保应用可以访问网络

Q: 模型响应很慢或经常超时？
A: 尝试以下优化：

检查网络状况，确保稳定连接
在设置中降低"生成速度"参数，减少每次生成的操作步数
简化指令，将复杂任务拆分为多个简单任务

[!TIP] 如果遇到其他问题，可以查看项目的docs/常见问题.md文档，或在项目Issue中搜索类似问题。

总结与进阶

通过本文的指导，你已经掌握了UI-TARS的基本安装配置和使用方法。这款工具就像一位不知疲倦的助理，能够帮你处理各种重复性GUI操作任务。随着使用深入，你会发现更多高效工作的方式。

想要进一步提升使用体验，可以探索：

自定义预设：创建常用任务的预设指令，一键执行
高级配置：调整模型参数以获得更精准的操作
批量任务：编写任务序列，实现多步骤自动化

UI-TARS作为开源项目，欢迎你贡献代码或分享使用经验，一起打造更智能的桌面操作体验！

UI-TARS-desktop

The Open-Source Multimodal AI Agent Stack: Connecting Cutting-Edge AI Models and Agent Infra

项目地址：https://gitcode.com/GitHub_Trending/ui/UI-TARS-desktop

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

Dart

1.04 K

271

零基础上手UI-TARS：从环境搭建到任务执行全流程指南

【功能概览】UI-TARS能为你做什么

【环境检查】准备你的系统与工具

系统要求对照表

浏览器兼容性列表

【环境部署】从安装到配置的完整流程

基础环境配置

macOS系统安装

Windows系统安装

模型服务对接

方法一：Hugging Face上的UI-TARS-1.5模型

方法二：VolcEngine上的Doubao-1.5-UI-TARS模型

【场景实践】三个实用任务案例

案例一：浏览器自动表单填写

案例二：GitHub项目最新Issue检查

案例三：网页内容提取与整理

【问题解决】常见问题速查

安装与启动问题

权限与操作问题

模型与连接问题

总结与进阶

热门内容推荐

最新内容推荐

项目优选

零基础上手UI-TARS：从环境搭建到任务执行全流程指南

【功能概览】UI-TARS能为你做什么

【环境检查】准备你的系统与工具

系统要求对照表

浏览器兼容性列表

【环境部署】从安装到配置的完整流程

基础环境配置

macOS系统安装

Windows系统安装

模型服务对接

方法一：Hugging Face上的UI-TARS-1.5模型

方法二：VolcEngine上的Doubao-1.5-UI-TARS模型

【场景实践】三个实用任务案例

案例一：浏览器自动表单填写

案例二：GitHub项目最新Issue检查

案例三：网页内容提取与整理

【问题解决】常见问题速查

安装与启动问题

权限与操作问题

模型与连接问题

总结与进阶

相关内容推荐

热门内容推荐

最新内容推荐

项目优选