告别云端依赖：UI-TARS本地部署与推理全攻略

2026-02-04 05:11:46作者：温玫谨Lighthearted

项目地址：https://gitcode.com/GitHub_Trending/ui/UI-TARS

你是否还在为云端部署的延迟和成本烦恼？是否希望在本地环境中快速运行UI-TARS模型进行GUI自动化测试？本文将带你从Hugging Face云端部署无缝过渡到本地推理环境搭建，全程无需复杂配置，即使是非技术人员也能轻松完成。读完本文，你将掌握模型本地部署、坐标转换、自动化脚本生成的完整流程，彻底摆脱网络依赖和算力限制。

为什么选择本地部署UI-TARS？

UI-TARS作为一款强大的GUI自动化工具，通过视觉语言模型(VLM)解析界面元素并生成操作指令，广泛应用于软件测试、自动化办公等场景。相比云端部署，本地推理具有三大优势：响应速度提升80%以上、数据隐私完全可控、零额外算力成本。项目核心模块ui_tars/action_parser.py实现了从自然语言指令到可执行代码的转换，配合坐标智能缩放算法，确保在不同分辨率下的操作准确性。

图1：UI-TARS与传统自动化工具的架构对比，展示了视觉指令解析的核心优势

准备工作：环境与资源

硬件要求

本地部署需满足：

最低配置：8GB内存 + 集成显卡
推荐配置：16GB内存 + NVIDIA GPU（支持CUDA加速）

必备软件

Python 3.8+
Git
pip/uv包管理工具

项目获取

通过以下命令克隆仓库：

git clone https://gitcode.com/GitHub_Trending/ui/UI-TARS
cd UI-TARS

项目核心代码位于codes/目录，包含模型解析模块和自动化测试脚本。数据处理示例可参考data/test_messages.json中的交互样本。

从云端到本地：部署模式转换

云端部署快速回顾

Hugging Face端点部署需配置GPU实例、环境变量和容器参数，具体步骤可参考官方部署文档。关键设置包括：

容器URI：ghcr.io/huggingface/text-generation-inference:3.2.1
环境变量：CUDA_GRAPHS=0，PAYLOAD_LIMIT=8000000
硬件推荐：GPU L40S 1GPU 48G（7B模型）

本地推理环境搭建

1. 安装依赖包

cd codes
pip install .
# 或使用uv加速安装
uv pip install .

此命令会安装pyproject.toml中定义的所有依赖，包括pyautogui、Pillow和正则解析库。

2. 模型文件准备

从Hugging Face下载UI-TARS模型权重，保存至本地目录（建议放置在codes/models/下，需手动创建该目录）。

3. 坐标处理示例

本地推理的核心是坐标系统转换，项目提供智能缩放算法自动适配不同屏幕分辨率：

from ui_tars.action_parser import parse_action_to_structure_output

# 模型输出的原始指令
model_response = "Thought: 点击设置按钮\nAction: click(start_box='(197,525)')"

# 解析并转换坐标
parsed_result = parse_action_to_structure_output(
    text=model_response,
    factor=1000,
    origin_resized_height=1080,
    origin_resized_width=1920,
    model_type="qwen25vl"
)
print(parsed_result)

上述代码将模型输出的相对坐标转换为当前屏幕的绝对坐标，转换逻辑由smart_resize函数实现，确保在不同分辨率下的操作一致性。

图2：坐标处理流程展示，红色标记为转换后的实际点击位置

本地推理实战：完整工作流

1. 图像预处理

from PIL import Image
from codes.tests.inference_test import smart_resize

# 加载界面截图
img = Image.open("data/coordinate_process_image.png")
width, height = img.size

# 智能调整尺寸以匹配模型输入要求
new_height, new_width = smart_resize(height, width)
resized_img = img.resize((new_width, new_height))

该步骤确保输入图像满足模型的像素限制（默认16384×28×28），同时保持原始比例。

2. 生成操作指令

使用本地模型处理图像并生成GUI操作指令（实际部署时需替换为真实模型调用代码）：

# 模拟模型输出
model_output = """Thought: 我需要点击窗口左上角的"文件"菜单
Action: click(start_box='(50, 30)')"""

3. 解析为可执行代码

from ui_tars.action_parser import parsing_response_to_pyautogui_code

# 转换为pyautogui脚本
py_code = parsing_response_to_pyautogui_code(
    responses=parsed_result,
    image_height=height,
    image_width=width
)

print(py_code)
# 输出结果：
# import pyautogui
# pyautogui.click(x=50, y=30)

parsing_response_to_pyautogui_code函数会自动处理坐标缩放和代码生成，支持点击、输入、拖拽等多种操作类型。