从零开始使用AI桌面助手：UI-TARS智能语音控制工具完全指南

2026-04-29 09:49:00作者：卓艾滢Kingsley

UI-TARS-desktop

The Open-Source Multimodal AI Agent Stack: Connecting Cutting-Edge AI Models and Agent Infra

项目地址：https://gitcode.com/GitHub_Trending/ui/UI-TARS-desktop

UI-TARS是一款基于视觉语言模型的AI桌面助手，通过智能语音控制工具实现自然语言与电脑操作的无缝交互。本指南将帮助你从安装配置到熟练运用，全面掌握这款高效智能的桌面控制工具，让复杂操作变得简单直观。

准备篇：环境搭建与基础配置

三步完成Windows系统安装

Windows用户在安装UI-TARS时可能会遇到系统安全提示，这是正常现象。按照以下步骤操作即可顺利完成安装：

下载安装包后双击运行，当出现"Windows已保护你的电脑"提示时，点击右下角的"更多信息"
在弹出的详细信息窗口中，选择"仍要运行"选项
按照安装向导指示完成后续步骤，系统会自动创建桌面快捷方式

小贴士：安装过程中建议关闭其他安全软件，避免干扰安装进程。安装完成后，可在防火墙设置中添加UI-TARS为信任程序，确保后续使用顺畅。

macOS系统安装与权限配置

macOS用户的安装过程更加直观，但需要特别注意权限设置：

将下载的DMG文件打开，将UI-TARS图标拖拽到"应用程序"文件夹
首次启动时，按住Control键并点击应用图标，选择"打开"
在系统设置中完成两项关键权限配置：
- 系统设置 → 隐私与安全性 → 辅助功能 → 勾选UI-TARS
- 系统设置 → 隐私与安全性 → 屏幕录制 → 勾选UI-TARS

小贴士：权限设置完成后，建议重启应用使设置生效。如果遇到"无法打开"的提示，请在"系统设置→隐私与安全性"中点击"仍要打开"。

快速进入设置界面

成功安装后，启动UI-TARS应用，按照以下步骤进入设置界面：

在应用主界面左侧导航栏底部找到齿轮图标
点击该图标打开设置面板
在设置面板中可以看到多个配置选项卡，包括VLM设置、聊天设置、操作器设置等

小贴士：设置界面支持多级菜单，点击左侧选项卡可展开详细设置项。建议初次使用时花几分钟浏览所有设置选项，了解可用功能。

实战篇：核心功能与操作流程

模型服务部署全流程

UI-TARS支持多种模型服务提供商，以下是通过Hugging Face部署模型的详细步骤：

登录Hugging Face账号，进入模型部署页面
点击"Deploy from Hugging Face"按钮
在模型选择界面搜索"UI-TARS-1.5-7B"
选择合适的硬件配置，点击部署按钮
等待部署完成，记录分配的端点URL

小贴士：免费用户可能需要等待资源分配，建议在非高峰时段进行部署。部署完成后，建议先在Hugging Face控制台测试API是否正常工作。

基础URL与API密钥配置

正确配置模型连接信息是使用UI-TARS的关键步骤：

在UI-TARS设置界面中选择"VLM设置"
在"基础URL"字段中输入从模型服务提供商获取的端点URL
对于需要API密钥的服务（如火山引擎）：
- 登录火山引擎控制台，进入"快捷API接入"
- 创建或选择现有API Key
- 将API Key复制到UI-TARS的对应配置项中
点击"测试连接"按钮验证配置是否正确

小贴士：URL配置时确保不包含多余的斜杠或空格。API密钥属于敏感信息，建议定期更换以保障账户安全。

任务启动与语音控制

UI-TARS支持文本指令和语音控制两种交互方式：

文本指令方式：

在主界面选择"Local Computer Operator"或"Browser Operator"
在聊天输入框中输入具体任务指令
点击发送按钮或按Enter键执行

语音控制方式：

确保麦克风权限已开启
点击聊天输入框旁的麦克风图标
清晰说出任务指令，系统会自动识别并执行

小贴士：指令越具体，执行效果越好。例如，不说"打开浏览器"，而是说"打开Chrome浏览器并访问GitHub网站"。语音控制时尽量在安静环境下使用，以提高识别准确率。

进阶篇：高级功能与效率技巧

预设配置管理

UI-TARS支持导入和管理预设配置，帮助你快速切换不同的工作场景：

从本地文件导入：

进入设置界面的"VLM设置"选项卡
点击"Import Preset Config"按钮
在弹出窗口中选择"Local File"选项
点击"Choose File"选择本地YAML配置文件
点击"Import"完成导入

从远程URL导入：

在导入窗口选择"Remote URL"选项
输入预设配置文件的URL地址
可选：开启"Auto update on startup"实现自动更新
点击"Import"完成导入

小贴士：你可以创建多个预设配置文件，针对不同任务场景（如文档处理、网页浏览、代码编写）保存特定设置。预设文件默认保存在~/.tars/presets/目录下。

报告导出与分享

UI-TARS可以将任务执行过程和结果生成详细报告：

本地下载报告：

在任务完成界面点击"导出报告"按钮
在弹出的保存对话框中选择保存位置
文件名默认包含时间戳，可根据需要修改
点击"存储"完成导出，报告格式为HTML

报告上传与分享：

在报告导出界面选择"上传至服务器"
上传完成后，系统会显示"Report link copied to clipboard"提示
链接已复制到剪贴板，可直接粘贴分享给他人

小贴士：HTML报告包含完整的任务执行记录和截图，建议定期导出重要任务报告以便后续查阅。上传的报告默认保留30天，可在"Report Settings"中调整保留时间。

常见操作场景示例

场景一：代码项目管理

指令："帮我检查UI-TARS-Desktop项目在GitHub上的最新开放issues"
系统会自动打开浏览器，访问项目GitHub页面
导航到issues页面，筛选出开放状态的issues
提取关键信息并整理成列表展示

场景二：网页内容获取

指令："查找今天上海的天气情况并记录下来"
系统自动打开浏览器并搜索天气信息
提取温度、降水概率等关键数据
生成结构化报告并保存到本地

场景三：软件操作自动化

指令："打开Microsoft Excel，创建一个新表格并输入过去7天的销售数据"
系统启动Excel应用
创建新工作表并按照指定格式输入数据
自动计算总和与平均值并生成简单图表

小贴士：复杂任务可以拆分成多个简单指令分步执行。例如，数据处理任务可以先让系统打开文件，再逐步执行分析和可视化操作。

资源篇：项目结构与支持

项目目录结构解析

UI-TARS采用模块化设计，主要目录结构如下：

主应用模块：apps/ui-tars/ - 包含桌面应用的核心代码
文档资源：docs/ - 官方文档和使用指南
配置示例：examples/presets/ - 预设配置文件示例
多模态组件：multimodal/ - 各种智能代理组件
工具函数：packages/ - 共享库和工具函数

小贴士：用户自定义的配置文件和预设通常保存在用户目录下的.tars文件夹中，可通过~/.tars/config.json访问和修改全局设置。

性能优化建议

为获得最佳使用体验，建议进行以下优化设置：

模型选择：根据任务复杂度选择合适的模型
- 简单任务：UI-TARS-1.5-7B
- 复杂任务：UI-TARS-1.5-13B（需要更高配置）
资源分配：
- 本地运行时确保至少8GB空闲内存
- 远程服务选择GPU加速以提高响应速度
网络优化：
- 使用稳定的网络连接，特别是远程模型部署时
- 国内用户可考虑火山引擎等国内服务提供商减少延迟

小贴士：启用"Use Responses API"选项可显著减少令牌消耗并提高响应速度。在"高级设置"中调整"最大循环次数"，简单任务设置为25-50，复杂任务可增加到100-200。

常见问题与解决方案

安装问题：

Windows SmartScreen阻止：点击"更多信息"→"仍要运行"
macOS应用无法打开：系统设置→隐私与安全性→允许从"任何来源"下载的应用

连接问题：

模型连接失败：检查Base URL和API密钥是否正确，测试网络连接
响应缓慢：尝试降低模型参数或切换到性能模式，关闭其他占用资源的应用

功能问题：

语音识别不准确：在安静环境下使用，尽量使用标准普通话
任务执行错误：简化指令，分步骤执行复杂任务，检查是否有足够权限

小贴士：如果遇到无法解决的问题，可以查看应用日志文件（~/.tars/logs/）或提交issue到项目仓库获取帮助。

通过本指南，你已经掌握了UI-TARS智能助手的安装配置、核心功能和高级技巧。这款AI桌面助手将帮助你以更自然、高效的方式与电脑交互，大幅提升工作效率。随着使用深入，你会发现更多实用功能和个性化设置，让UI-TARS成为你日常工作的得力助手。

UI-TARS-desktop

The Open-Source Multimodal AI Agent Stack: Connecting Cutting-Edge AI Models and Agent Infra

项目地址：https://gitcode.com/GitHub_Trending/ui/UI-TARS-desktop

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

flutter_flutter

Oohos_react_native

React Native鸿蒙化仓库

昇腾LLM分布式训练框架

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统