从GUI到通用智能：UI-TARS如何重新定义人机交互的未来

2026-02-04 05:07:20作者：沈韬淼Beryl

你是否曾梦想过电脑能像人类一样看懂屏幕、完成复杂操作？当你还在为重复的点击、输入感到烦躁时，UI-TARS已经实现了从图形用户界面（GUI）到通用智能代理（Generalized AI Agents）的跨越。本文将带你深入了解这个革命性的开源项目，看看它如何让AI真正"理解"并操控数字世界，以及这一技术将如何改变我们与机器协作的未来。读完本文，你将掌握UI-TARS的核心能力、实际应用场景，以及如何快速上手使用这一强大工具。

UI-TARS是什么：不止于界面，而是智能代理

UI-TARS（User Interface Task Automation and Reasoning System，用户界面任务自动化与推理系统）是一个开源的多模态智能代理，它建立在强大的视觉语言模型基础之上，能够在虚拟世界中执行各种复杂任务。不同于传统的脚本自动化工具，UI-TARS通过视觉理解和推理决策，真正实现了像人类一样"看懂"界面并采取行动。

UI-TARS的核心创新在于将强化学习增强的高级推理能力与视觉语言模型相结合。这使得模型在采取行动前能够进行"思考"，显著提升了其在复杂任务中的表现和适应性。最新的UI-TARS-2版本更是实现了"全能型代理"的突破，无缝整合了GUI操作、游戏、代码编写和工具使用等多种能力，为处理复杂任务提供了统一解决方案。

核心能力：超越传统GUI的智能交互

UI-TARS的强大之处在于其全面的任务执行能力，涵盖了从桌面操作到游戏竞技的广泛领域。让我们看看它在关键基准测试中的表现：

跨平台交互能力

UI-TARS支持桌面、浏览器和移动设备等多种平台的交互，在多个权威基准测试中表现卓越：

基准类型	测试项目	UI-TARS-1.5	OpenAI CUA	Claude 3.7	先前最佳
电脑使用	OSworld (100步)	42.5	36.4	28	38.1 (200步)
	Windows Agent Arena (50步)	42.1	-	-	29.8
浏览器使用	WebVoyager	84.8	87	84.1	87
	Online-Mind2web	75.8	71	62.9	71
手机使用	Android World	64.2	-	-	59.5

游戏竞技：超越人类水平的表现

令人惊讶的是，UI-TARS在多款Poki游戏中实现了100%的完美分数，远超其他AI系统：

模型	2048	cubinko	energy	free-the-key	Gem-11	hex-frvr
OpenAI CUA	31.04	0.00	32.80	0.00	46.27	92.25
Claude 3.7	43.05	0.00	41.60	0.00	0.00	30.76
UI-TARS-1.5	100.00	0.00	100.00	100.00	100.00	100.00

这种卓越表现源于UI-TARS独特的视觉理解和动作规划能力。它不仅能"看到"屏幕上的元素，还能理解游戏规则并制定长期策略。

坐标处理：精准定位的核心技术

UI-TARS能够精确解析屏幕坐标并将其转换为实际操作位置，这是实现精准交互的关键。项目提供了详细的坐标处理指南和可视化工具，帮助开发者理解模型如何将抽象坐标映射到实际屏幕位置。

坐标处理的核心代码实现于codes/ui_tars/action_parser.py文件中，其中smart_resize函数负责根据屏幕尺寸动态调整坐标比例，确保在不同分辨率下的准确定位。

快速上手：如何使用UI-TARS

使用UI-TARS非常简单，只需几个步骤即可让AI代理帮你完成各种任务：

部署与推理

UI-TARS提供了灵活的部署选项，包括Hugging Face端点部署和本地部署。详细部署指南请参考README_deploy.md文件。

安装与基本使用

通过pip或uv工具可以轻松安装UI-TARS：

pip install ui-tars
# 或
uv pip install ui-tars

基本使用示例：

from ui_tars.action_parser import parse_action_to_structure_output, parsing_response_to_pyautogui_code

# 模型输出的响应
response = "Thought: 点击按钮\nAction: click(start_box='(100,200)')"
# 原始图像尺寸
original_image_width, original_image_height = 1920, 1080

# 解析动作
parsed_dict = parse_action_to_structure_output(
    response,
    factor=1000,
    origin_resized_height=original_image_height,
    origin_resized_width=original_image_width,
    model_type="qwen25vl"
)

# 转换为PyAutoGUI代码
pyautogui_code = parsing_response_to_pyautogui_code(
    responses=parsed_dict,
    image_height=original_image_height,
    image_width=original_image_width
)

print(pyautogui_code)