UI-TARS-desktop零基础上手:用自然语言控制电脑的全流程通关指南
UI-TARS-desktop是一款基于视觉-语言模型的GUI代理应用程序,它让你能用日常说话的方式来控制电脑。无论你是技术新手还是有经验的用户,这款跨平台工具都能让你的电脑操作变得像聊天一样简单。接下来,让我们一步步完成从环境准备到实际使用的全过程。
环境自检三步法
在开始安装前,我们需要确认你的电脑是否已经具备必要的基础软件。这就像做饭前要先检查食材是否齐全一样重要。
-
检查Node.js版本
打开终端(Windows用户打开命令提示符或PowerShell,Mac/Linux用户打开终端),输入以下命令并按回车:node --version✅ 正常结果:显示
v12.0.0或更高版本号
❌ 问题解决:如果提示"命令未找到"或版本低于12,请前往Node.js官网下载安装LTS版本 -
验证Git安装
在同一终端窗口输入:git --version✅ 正常结果:显示类似
git version 2.x.x的版本信息
❌ 问题解决:未安装则从Git官网下载对应系统版本 -
系统兼容性检测
运行以下命令检查操作系统类型(主要用于后续安装参考):# Windows系统 systeminfo | findstr /B /C:"OS Name" # Mac/Linux系统 uname -a
⚠️ 注意:Windows用户可能需要安装额外的构建工具,可通过管理员权限运行
npm install --global --production windows-build-tools来解决后续可能的依赖安装问题。
源代码获取与安装
克隆项目仓库
现在我们要把UI-TARS-desktop的代码下载到你的电脑上。这就像从图书馆借一本需要的书,只不过我们是从代码仓库复制一份到本地。
- 打开终端,导航到你想存放项目的文件夹(例如文档或下载文件夹)
- 输入以下命令并回车:
git clone https://gitcode.com/GitHub_Trending/ui/UI-TARS-desktop - 进入项目目录:
cd UI-TARS-desktop
安装项目依赖
依赖就像是应用程序需要的"零件",我们需要先把这些零件准备好才能组装出完整的应用。
在项目根目录下运行以下命令:
# 使用npm安装依赖(推荐)
npm install
# 如果你习惯使用yarn,也可以运行
# yarn install
⏱️ 安装提示:这个过程可能需要3-5分钟,取决于你的网络速度。如果看到类似
WARN的警告信息,通常可以忽略,只要没有ERROR就表示安装成功。
构建应用程序
构建过程会把源代码"打包"成可以直接运行的应用程序,就像把食材烹饪成可以直接享用的菜肴。
npm run build
构建成功后,你会看到类似Build completed successfully的提示信息。
不同系统的安装指南
Windows系统安装步骤
- 构建完成后,进入生成的安装文件目录:
cd apps/ui-tars/dist - 找到并双击
.exe格式的安装文件 - 当看到Windows Defender SmartScreen警告时(如下所示),点击"更多信息",然后选择"仍要运行"
macOS系统安装步骤
- 构建完成后,在项目目录中找到
.dmg安装文件 - 双击该文件,会打开一个类似下面的窗口
- 将UI TARS图标拖动到Applications文件夹中完成安装
⚠️ macOS安全设置:如果系统提示"无法打开,因为它来自身份不明的开发者",请进入"系统偏好设置 > 安全性与隐私",点击"仍要打开"。
启动应用与初始体验
首次启动应用
安装完成后,你可以在应用程序文件夹中找到UI-TARS-desktop并双击启动。首次启动时,你会看到欢迎界面:
界面上有两个主要选项:
- Computer Operator:控制本地计算机
- Browser Operator:控制浏览器操作
选择操作模式
点击左下角的设置按钮,可以切换不同的操作模式:
在输入框下方的下拉菜单中,你可以根据需要选择"Computer Use"或"Browser Use"模式:
配置设置详解
主要配置项说明
在设置界面中,你可以调整以下关键参数:
-
模型设置
- 模型选择:根据你的需求和电脑性能选择合适的模型
- 推理速度:优先速度会减少响应时间,但可能降低准确性
- 上下文长度:控制模型能理解的指令长度,越长需要越多内存
-
操作权限
- 屏幕捕获:允许应用截图分析界面
- 鼠标控制:允许应用模拟鼠标操作
- 键盘输入:允许应用模拟键盘输入
-
界面设置
- 主题选择:亮色/暗色模式切换
- 字体大小:调整界面文字大小
- 语言设置:选择应用界面语言
💡 配置建议:新手用户建议保持默认设置,熟悉后再根据需要调整。
核心功能体验
执行你的第一个任务
让我们尝试使用自然语言指令来完成一个简单任务:
- 选择"Computer Operator"模式
- 在输入框中输入指令,例如:"请帮我打开记事本并输入'Hello UI-TARS'"
- 点击发送按钮或按Enter键
查看任务执行结果
任务完成后,你会看到执行报告,包含操作步骤和结果截图:
进阶技巧
指令优化技巧
-
具体明确:与其说"整理我的文件",不如说"将桌面上所有.jpg图片移动到图片文件夹的2023子文件夹中"
-
分步骤指令:复杂任务拆分成多个简单步骤,例如:
第一步:打开Chrome浏览器 第二步:访问github.com 第三步:搜索UI-TARS-desktop项目 -
使用场景提示:在指令中加入场景说明,如"在Excel中,帮我统计A列数据的平均值"
效率提升建议
-
常用指令保存:将重复使用的复杂指令保存为预设,在设置中可以找到"保存预设"功能
-
快捷键使用:按Ctrl+Enter快速发送指令,按Esc键清除当前输入
-
结果导出:重要的任务结果可以通过"导出报告"功能保存为PDF文件
问题排查方法
-
指令执行失败:尝试简化指令或分步骤执行,避免一次请求过多操作
-
应用无响应:关闭应用后重启,同时按下Ctrl+Shift+Esc打开任务管理器结束所有相关进程
-
识别不准确:确保屏幕分辨率在1080p以上,界面元素不要太小
故障排除速查表
| 问题现象 | 可能原因 | 解决方案 |
|---|---|---|
| 安装依赖时报错 | Node.js版本过低 | 升级到Node.js 12.0.0以上版本 |
| 应用启动后空白界面 | 显卡驱动不支持 | 更新显卡驱动或降低图形加速设置 |
| 指令无响应 | 网络连接问题 | 检查网络或切换离线模式 |
| 无法识别界面元素 | 分辨率问题 | 将屏幕分辨率调整为1920x1080或更高 |
| 权限错误 | 应用权限不足 | 以管理员身份运行应用 |
通过本指南,你已经掌握了UI-TARS-desktop的安装配置和基本使用方法。随着使用的深入,你会发现更多用自然语言控制电脑的便捷之处。记住,AI工具需要通过使用来不断适应你的使用习惯,多尝试不同的指令表达方式,你会获得更好的使用体验!
atomcodeClaude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get StartedRust069- DDeepSeek-V4-ProDeepSeek-V4-Pro(总参数 1.6 万亿,激活 49B)面向复杂推理和高级编程任务,在代码竞赛、数学推理、Agent 工作流等场景表现优异,性能接近国际前沿闭源模型。Python00
MiniMax-M2.7MiniMax-M2.7 是我们首个深度参与自身进化过程的模型。M2.7 具备构建复杂智能体应用框架的能力,能够借助智能体团队、复杂技能以及动态工具搜索,完成高度精细的生产力任务。Python00
GLM-5.1GLM-5.1是智谱迄今最智能的旗舰模型,也是目前全球最强的开源模型。GLM-5.1大大提高了代码能力,在完成长程任务方面提升尤为显著。和此前分钟级交互的模型不同,它能够在一次任务中独立、持续工作超过8小时,期间自主规划、执行、自我进化,最终交付完整的工程级成果。Jinja00
Kimi-K2.6Kimi K2.6 是一款开源的原生多模态智能体模型,在长程编码、编码驱动设计、主动自主执行以及群体任务编排等实用能力方面实现了显著提升。Python00
Hy3-previewHy3 preview 是由腾讯混元团队研发的2950亿参数混合专家(Mixture-of-Experts, MoE)模型,包含210亿激活参数和38亿MTP层参数。Hy3 preview是在我们重构的基础设施上训练的首款模型,也是目前发布的性能最强的模型。该模型在复杂推理、指令遵循、上下文学习、代码生成及智能体任务等方面均实现了显著提升。Python00






