UI-TARS本地部署完全指南：从环境搭建到性能优化的开源项目实践

2026-03-09 04:57:13作者：裴锟轩Denise

开篇痛点直击

当你在进行GUI自动化测试时，是否遇到过云端部署的延迟问题？是否担心敏感数据在传输过程中的安全风险？本地部署UI-TARS将为你解决这些烦恼，让你在离线环境下也能高效完成自动化任务，同时保护数据隐私，降低长期使用成本。

核心价值解析

本地部署带来的三大核心优势

在当今数字化时代，软件测试和自动化办公对效率和安全性的要求越来越高。UI-TARS作为一款强大的GUI自动化工具，其本地部署方案为用户带来了显著的价值提升：

性能飞跃

本地部署UI-TARS可以将响应速度提升80%以上。与云端部署相比，省去了网络传输的时间，指令执行更加即时。这意味着你可以在更短的时间内完成更多的测试用例，极大地提高工作效率。

安全可控

数据隐私是企业和个人都非常关注的问题。通过本地部署，所有的操作数据都存储在本地服务器或个人电脑中，避免了数据在云端传输和存储可能带来的泄露风险。你可以完全掌控自己的数据，满足严格的安全合规要求。

成本优化

长期使用云端服务需要支付高额的算力费用，尤其是在大规模测试场景下。本地部署一次性投入硬件设备，后续只需支付少量的维护成本，从长远来看可以节省大量的开支。

图：UI-TARS与传统自动化工具在多个基准测试中的性能对比，展示了UI-TARS的显著优势

环境适配指南

了解硬件和软件要求，为部署做好准备

在开始部署UI-TARS之前，我们需要确保环境满足基本要求。以下是详细的硬件和软件规格：

硬件要求

配置级别	内存	显卡	存储
最低配置	8GB	集成显卡	20GB可用空间
推荐配置	16GB	NVIDIA GPU（支持CUDA）	50GB可用空间

软件要求

软件	版本要求
Python	3.8+
Git	最新版
pip/uv	最新版

部署流程重构

分阶段操作指南，让部署过程清晰明了

1. 获取项目代码

📌 首先，我们需要克隆UI-TARS项目代码到本地。打开终端，执行以下命令：

git clone https://gitcode.com/GitHub_Trending/ui/UI-TARS
cd UI-TARS

验证方法：执行ls命令，确认可以看到项目的目录结构，包括codes、data、figures等文件夹。

2. 创建虚拟环境

📌 为了避免依赖冲突，建议创建一个独立的Python虚拟环境：

# 使用venv创建虚拟环境
python -m venv venv

# 激活虚拟环境
# Windows:
venv\Scripts\activate
# Linux/Mac:
source venv/bin/activate

验证方法：激活虚拟环境后，终端提示符前会显示(venv)，表示虚拟环境已成功激活。

3. 安装依赖包

📌 进入codes目录，安装项目所需的依赖：

cd codes
pip install .
# 或使用uv加速安装
uv pip install .

验证方法：执行pip list命令，查看是否已安装pyautogui、Pillow等依赖包。

4. 准备模型文件

📌 从Hugging Face下载UI-TARS模型权重，并保存到本地目录。建议创建models文件夹存放模型：

mkdir models
# 将下载的模型文件放入models目录

⚠️ 注意：模型文件较大，下载过程可能需要一些时间，请确保网络连接稳定。

5. 配置环境变量

📌 创建.env文件，配置必要的环境变量：

# 在项目根目录创建.env文件
touch .env
# 编辑.env文件，添加以下内容
MODEL_PATH=models/ui-tars-7b
DEVICE=cpu  # 或cuda（如果有GPU）

验证方法：执行cat .env命令，确认环境变量配置正确。

功能验证手册

确保部署成功并解决常见问题

基本功能验证

📌 运行测试脚本，验证基本功能是否正常：

cd codes/tests
python action_parser_test.py

如果测试通过，说明基本功能正常。如果出现错误，请检查以下可能的问题：

常见问题排查

Q: 运行测试脚本时提示缺少依赖包怎么办？ A: 确保已经激活虚拟环境，并重新执行pip install .命令安装依赖。

Q: 模型加载失败如何解决？ A: 检查MODEL_PATH环境变量是否正确指向模型文件所在目录，确保模型文件完整。

Q: 执行自动化操作时鼠标点击位置不准确？ A: 这可能是由于屏幕分辨率设置问题。请确保显示器缩放比例为100%，并重新运行坐标校准程序：

python -m ui_tars.coordinate_calibration

跨平台适配

不同操作系统的部署差异

UI-TARS支持Windows、Linux和MacOS操作系统，但在不同系统上的部署存在一些差异：

Windows系统

使用PowerShell执行命令
虚拟环境激活命令：venv\Scripts\activate
需要安装额外的依赖：pip install pygetwindow pyrect

Linux系统

使用bash终端
虚拟环境激活命令：source venv/bin/activate
需要安装系统依赖：sudo apt-get install scrot python3-tk python3-dev

MacOS系统

使用Terminal终端
虚拟环境激活命令：source venv/bin/activate
需要安装系统依赖：brew install scrot

场景化应用示范

2-3个典型使用场景，展示UI-TARS的实际应用价值

场景一：自动化软件测试

UI-TARS可以模拟用户操作，自动完成软件测试任务。以下是一个简单的测试脚本示例：

from ui_tars.action_parser import parse_action_to_structure_output
import pyautogui
import time

# 打开记事本应用
pyautogui.press('win')
pyautogui.typewrite('notepad')
pyautogui.press('enter')
time.sleep(1)

# 模拟用户输入
model_response = "Thought: 在记事本中输入'Hello, UI-TARS!'并保存\nAction: type(text='Hello, UI-TARS!')\nAction: hotkey(keys='ctrl s')"

# 解析并执行操作
parsed_result = parse_action_to_structure_output(
    text=model_response,
    factor=1000,
    origin_resized_height=1080,
    origin_resized_width=1920,
    model_type="qwen25vl"
)

# 执行解析后的操作
for action in parsed_result['actions']:
    if action['name'] == 'type':
        pyautogui.typewrite(action['parameters']['text'])
    elif action['name'] == 'hotkey':
        pyautogui.hotkey(*action['parameters']['keys'].split(' '))

time.sleep(1)
pyautogui.press('enter')  # 确认保存

场景二：自动化办公

利用UI-TARS可以实现日常办公任务的自动化，提高工作效率。例如，自动生成报告：

from ui_tars.action_parser import parsing_response_to_pyautogui_code

# 模拟模型输出的操作指令
model_output = """Thought: 打开Word并创建新文档
Action: click(start_box='(10, 980)')  # 点击开始菜单
Action: type(text='Word')
Action: click(start_box='(150, 200)')  # 点击Word图标
Action: click(start_box='(100, 100)')  # 点击空白文档模板
Thought: 输入报告标题和内容
Action: type(text='月度工作报告')
Action: hotkey(keys='enter')
Action: type(text='本月完成了以下工作：')
Action: hotkey(keys='enter')
Action: type(text='1. 完成了UI-TARS的本地部署')
Action: hotkey(keys='enter')
Action: type(text='2. 编写了自动化测试脚本')"""

# 解析为可执行代码
py_code = parsing_response_to_pyautogui_code(
    responses=model_output,
    image_height=1080,
    image_width=1920
)

# 执行生成的代码
exec(py_code)

图：UI-TARS自动化办公流程示意图，展示了从指令解析到执行的全过程

进阶能力拓展

自定义开发方向，让UI-TARS更适合你的需求

自定义解析规则

如果你需要处理特定格式的模型输出，可以修改codes/ui_tars/action_parser.py文件，自定义解析规则。例如，添加对新操作类型的支持：

# 在action_parser.py中添加新的操作解析逻辑
def parse_custom_action(action_str):
    # 解析自定义操作的代码
    # ...
    return parsed_action

# 在主解析函数中添加对新操作的支持
if action_type == 'custom':
    return parse_custom_action(action_str)

扩展操作类型

你可以扩展UI-TARS支持的操作类型，例如添加对鼠标滚轮滚动的支持：

# 在pyautogui代码生成器中添加新的操作
def generate_scroll_code(parameters):
    return f"pyautogui.scroll({parameters['amount']})"

# 在解析函数中注册新的操作生成器
action_generators = {
    # ... 现有操作
    'scroll': generate_scroll_code
}