AI驱动的零代码效率工具：UI-TARS桌面自动化部署教程2024最新版

2026-04-29 11:04:54作者：裴麒琰

你是否每天都在重复着打开浏览器、填写表单、整理文件这些机械性操作？AI桌面自动化技术正在改变这一切。AI桌面自动化（通过人工智能技术实现图形用户界面的自动控制）让你能用自然语言指令操控电脑，从简单的文件管理到复杂的浏览器操作，彻底释放你的双手。本教程将带你从零开始搭建属于自己的AI桌面助手，无需编程基础，只需简单配置就能让电脑听懂你的指令。

一、为什么选择UI-TARS：重新定义桌面效率

你知道吗？普通办公族每天要花费30%的时间在重复操作上。UI-TARS作为基于视觉语言模型(VLM)的智能助手，通过"观察-理解-执行"的闭环，将你的自然语言转化为精准的GUI操作。

三大核心优势

双模式操作体系
- 本地计算机模式：直接控制桌面应用，如Finder/资源管理器、Office套件
- 浏览器操作模式：自动化网页交互，支持表单填写、数据爬取等场景
零代码门槛 无需编写任何脚本，纯自然语言交互，像和同事说话一样下达指令
跨平台兼容性 完美支持Windows 10/11和macOS 12+系统，统一操作体验

UI-TARS桌面版主界面，左侧为导航栏，中央提供本地计算机和浏览器两种操作模式选择

性能参数对比

特性	传统脚本工具	UI-TARS
开发门槛	需掌握Python等编程语言	纯自然语言
界面适应性	元素变化即失效	视觉识别自动适配
操作精度	依赖坐标定位	智能识别界面元素
学习曲线	陡峭	零基础5分钟上手

二、环境搭建：5分钟完成准备工作

目标

完成UI-TARS的安装与基础环境配置，确保应用能正常启动并获取必要系统权限

步骤

1. 获取安装包

git clone https://gitcode.com/GitHub_Trending/ui/UI-TARS-desktop
cd UI-TARS-desktop

2. 系统-specific安装流程

Windows系统

双击apps/ui-tars/images/windows_install.png所示的安装程序
勾选"创建桌面快捷方式"，点击"下一步"直至完成
首次启动时，系统会弹出"用户账户控制"对话框，点击"是"

macOS系统

打开apps/ui-tars/images/mac_install.png对应的dmg文件
将UI-TARS拖拽至"应用程序"文件夹
首次启动时按住Control键点击应用，选择"打开"以绕过系统安全检查

3. 权限配置

💡 关键步骤：UI-TARS需要以下权限才能正常工作，请务必完成配置

Windows权限

进入"设置 > 隐私和安全性 > 辅助功能"
找到UI-TARS并开启"允许此应用访问"
在"屏幕录制"选项中同样开启权限

macOS权限

打开"系统设置 > 隐私与安全性"
在"辅助功能"中勾选UI-TARS
在"屏幕录制"中勾选UI-TARS
在"文件和文件夹"中授予"桌面"和"下载"访问权限

macOS系统权限配置界面，显示辅助功能和屏幕录制权限开关

验证

成功启动UI-TARS后，主界面应显示"Computer Operator"和"Browser Operator"两个选项卡，无错误提示

三、模型配置：连接AI大脑的关键步骤

目标

配置视觉语言模型服务，建立UI-TARS与AI模型的通信通道

步骤

1. 选择模型服务提供商

方案A：Hugging Face (适合开发者)

访问Hugging Face网站，搜索"UI-TARS-1.5-7B"模型
点击"Deploy"按钮部署模型服务
获取API访问地址和密钥

方案B：火山引擎 (适合企业用户)

登录火山引擎控制台
导航至"人工智能 > 模型服务"
选择"Doubao-1.5-UI-TARS"模型
完成服务开通并获取API密钥

2. 配置模型参数

在UI-TARS主界面点击左下角"Settings"图标
选择"VLM Settings"选项卡
按以下说明填写配置信息：

语言设置: 中文  # 支持中英文切换
VLM服务商: OpenAI compatible for UI-TARS-1.5  # 根据选择的服务提供商选择
VLM基础URL: [你的服务地址]  # 从模型服务获取
VLM API密钥: [你的API密钥]  # 从模型服务获取
VLM模型名称: UI-TARS-1.5-7B  # 模型标识

UI-TARS的VLM设置界面，红框标注处选择"OpenAI compatible for UI-TARS-1.5"

3. 测试连接

点击"Save"保存配置
系统会自动测试连接状态
如显示"连接成功"，则模型配置完成
如连接失败，请检查网络连接和API密钥是否正确

火山引擎API接入界面，显示API密钥获取和代码示例

验证

在设置界面点击"Test Connection"，应显示"Connection successful"提示

四、功能实战：从指令到执行的完整流程

目标

通过实际案例掌握UI-TARS的基本使用方法，体验自然语言驱动的桌面自动化

步骤

1. 本地计算机操作

以"在桌面创建名为'AI自动化'的文件夹"为例：

在主界面选择"Computer Operator"
点击"Use Local Computer"按钮
在输入框中输入指令："在桌面创建一个名为'AI自动化'的新文件夹"
按下Enter键执行

💡 提示：指令越具体，执行效果越好。例如"在桌面创建一个名为'AI自动化'的新文件夹，并将其设置为蓝色"

2. 浏览器自动化操作

以"搜索明天上海的天气"为例：

在主界面选择"Browser Operator"
点击"Use Local Browser"按钮
在聊天框输入："搜索明天上海的天气"
观察AI如何自动打开浏览器、输入搜索词并获取结果

浏览器自动化控制界面，红框标注"Cloud Browser"标签，显示正在控制的网页内容

3. 任务执行监控

任务执行过程中，右侧面板会显示实时截图
每个操作步骤会被记录，如"点击搜索框"、"输入文本"等
任务完成后，结果报告会自动复制到剪贴板

任务执行成功界面，右上角显示"Report link copied to clipboard"提示

验证

检查桌面是否出现"AI自动化"文件夹，浏览器是否正确显示上海天气搜索结果

五、场景拓展：释放AI自动化的全部潜力

常见任务模板库

1. 邮件处理自动化

每天早上9点，自动打开Outlook，将未读邮件标为已读并按发件人分类到不同文件夹

2. 数据报表生成

从Excel表格中提取上月销售数据，生成柱状图并保存为PNG图片，发送到指定邮箱

3. 网页数据采集

打开指定电商网站，收集所有商品的名称、价格和评分，保存为CSV文件

4. 社交媒体管理

每天下午3点，在Twitter上发布预设内容，并回复最新的5条评论

5. 软件测试辅助

打开测试版应用，依次点击所有菜单选项，检查是否有崩溃或错误提示

性能监控面板配置

在设置界面中，选择"Performance Settings"
启用"Real-time Monitoring"
设置性能指标阈值：
- CPU使用率：80%
- 内存占用：1GB
- 操作延迟：3秒
勾选"自动优化模式"

当系统资源紧张时，UI-TARS会自动调整操作速度和截图频率，确保流畅运行

进阶学习路径

自定义操作流程 官方文档：docs/preset.md
高级模型调优 配置指南：docs/setting.md
API开发接口 开发文档：docs/sdk.md

通过这些进阶内容，你可以将UI-TARS打造成完全符合个人工作习惯的专属助手，实现更复杂的自动化场景。

现在，你已经掌握了UI-TARS的全部部署和基础使用方法。这个强大的AI桌面助手将成为你工作中的得力伙伴，帮你处理重复劳动，让你专注于更有创造性的任务。记住，AI工具的真正价值在于解放人的创造力——把机械性的工作交给AI，把宝贵的时间留给自己。

UI-TARS-desktop

The Open-Source Multimodal AI Agent Stack: Connecting Cutting-Edge AI Models and Agent Infra

项目地址：https://gitcode.com/GitHub_Trending/ui/UI-TARS-desktop

登录后查看全文

项目优选

收起

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

本仓将收集和展示高质量的仓颉示例代码，欢迎大家投稿，让全世界看到您的妙趣设计，也让更多人通过您的编码理解和喜爱仓颉语言。