从零开始使用AI桌面助手:UI-TARS智能语音控制工具完全指南
UI-TARS是一款基于视觉语言模型的AI桌面助手,通过智能语音控制工具实现自然语言与电脑操作的无缝交互。本指南将帮助你从安装配置到熟练运用,全面掌握这款高效智能的桌面控制工具,让复杂操作变得简单直观。
准备篇:环境搭建与基础配置
三步完成Windows系统安装
Windows用户在安装UI-TARS时可能会遇到系统安全提示,这是正常现象。按照以下步骤操作即可顺利完成安装:
- 下载安装包后双击运行,当出现"Windows已保护你的电脑"提示时,点击右下角的"更多信息"
- 在弹出的详细信息窗口中,选择"仍要运行"选项
- 按照安装向导指示完成后续步骤,系统会自动创建桌面快捷方式
小贴士:安装过程中建议关闭其他安全软件,避免干扰安装进程。安装完成后,可在防火墙设置中添加UI-TARS为信任程序,确保后续使用顺畅。
macOS系统安装与权限配置
macOS用户的安装过程更加直观,但需要特别注意权限设置:
- 将下载的DMG文件打开,将UI-TARS图标拖拽到"应用程序"文件夹
- 首次启动时,按住Control键并点击应用图标,选择"打开"
- 在系统设置中完成两项关键权限配置:
- 系统设置 → 隐私与安全性 → 辅助功能 → 勾选UI-TARS
- 系统设置 → 隐私与安全性 → 屏幕录制 → 勾选UI-TARS
小贴士:权限设置完成后,建议重启应用使设置生效。如果遇到"无法打开"的提示,请在"系统设置→隐私与安全性"中点击"仍要打开"。
快速进入设置界面
成功安装后,启动UI-TARS应用,按照以下步骤进入设置界面:
- 在应用主界面左侧导航栏底部找到齿轮图标
- 点击该图标打开设置面板
- 在设置面板中可以看到多个配置选项卡,包括VLM设置、聊天设置、操作器设置等
小贴士:设置界面支持多级菜单,点击左侧选项卡可展开详细设置项。建议初次使用时花几分钟浏览所有设置选项,了解可用功能。
实战篇:核心功能与操作流程
模型服务部署全流程
UI-TARS支持多种模型服务提供商,以下是通过Hugging Face部署模型的详细步骤:
- 登录Hugging Face账号,进入模型部署页面
- 点击"Deploy from Hugging Face"按钮
- 在模型选择界面搜索"UI-TARS-1.5-7B"
- 选择合适的硬件配置,点击部署按钮
- 等待部署完成,记录分配的端点URL
小贴士:免费用户可能需要等待资源分配,建议在非高峰时段进行部署。部署完成后,建议先在Hugging Face控制台测试API是否正常工作。
基础URL与API密钥配置
正确配置模型连接信息是使用UI-TARS的关键步骤:
- 在UI-TARS设置界面中选择"VLM设置"
- 在"基础URL"字段中输入从模型服务提供商获取的端点URL
- 对于需要API密钥的服务(如火山引擎):
- 登录火山引擎控制台,进入"快捷API接入"
- 创建或选择现有API Key
- 将API Key复制到UI-TARS的对应配置项中
- 点击"测试连接"按钮验证配置是否正确
小贴士:URL配置时确保不包含多余的斜杠或空格。API密钥属于敏感信息,建议定期更换以保障账户安全。
任务启动与语音控制
UI-TARS支持文本指令和语音控制两种交互方式:
文本指令方式:
- 在主界面选择"Local Computer Operator"或"Browser Operator"
- 在聊天输入框中输入具体任务指令
- 点击发送按钮或按Enter键执行
语音控制方式:
- 确保麦克风权限已开启
- 点击聊天输入框旁的麦克风图标
- 清晰说出任务指令,系统会自动识别并执行
小贴士:指令越具体,执行效果越好。例如,不说"打开浏览器",而是说"打开Chrome浏览器并访问GitHub网站"。语音控制时尽量在安静环境下使用,以提高识别准确率。
进阶篇:高级功能与效率技巧
预设配置管理
UI-TARS支持导入和管理预设配置,帮助你快速切换不同的工作场景:
从本地文件导入:
- 进入设置界面的"VLM设置"选项卡
- 点击"Import Preset Config"按钮
- 在弹出窗口中选择"Local File"选项
- 点击"Choose File"选择本地YAML配置文件
- 点击"Import"完成导入
从远程URL导入:
- 在导入窗口选择"Remote URL"选项
- 输入预设配置文件的URL地址
- 可选:开启"Auto update on startup"实现自动更新
- 点击"Import"完成导入
小贴士:你可以创建多个预设配置文件,针对不同任务场景(如文档处理、网页浏览、代码编写)保存特定设置。预设文件默认保存在~/.tars/presets/目录下。
报告导出与分享
UI-TARS可以将任务执行过程和结果生成详细报告:
本地下载报告:
- 在任务完成界面点击"导出报告"按钮
- 在弹出的保存对话框中选择保存位置
- 文件名默认包含时间戳,可根据需要修改
- 点击"存储"完成导出,报告格式为HTML
报告上传与分享:
- 在报告导出界面选择"上传至服务器"
- 上传完成后,系统会显示"Report link copied to clipboard"提示
- 链接已复制到剪贴板,可直接粘贴分享给他人
小贴士:HTML报告包含完整的任务执行记录和截图,建议定期导出重要任务报告以便后续查阅。上传的报告默认保留30天,可在"Report Settings"中调整保留时间。
常见操作场景示例
场景一:代码项目管理
- 指令:"帮我检查UI-TARS-Desktop项目在GitHub上的最新开放issues"
- 系统会自动打开浏览器,访问项目GitHub页面
- 导航到issues页面,筛选出开放状态的issues
- 提取关键信息并整理成列表展示
场景二:网页内容获取
- 指令:"查找今天上海的天气情况并记录下来"
- 系统自动打开浏览器并搜索天气信息
- 提取温度、降水概率等关键数据
- 生成结构化报告并保存到本地
场景三:软件操作自动化
- 指令:"打开Microsoft Excel,创建一个新表格并输入过去7天的销售数据"
- 系统启动Excel应用
- 创建新工作表并按照指定格式输入数据
- 自动计算总和与平均值并生成简单图表
小贴士:复杂任务可以拆分成多个简单指令分步执行。例如,数据处理任务可以先让系统打开文件,再逐步执行分析和可视化操作。
资源篇:项目结构与支持
项目目录结构解析
UI-TARS采用模块化设计,主要目录结构如下:
- 主应用模块:
apps/ui-tars/- 包含桌面应用的核心代码 - 文档资源:
docs/- 官方文档和使用指南 - 配置示例:
examples/presets/- 预设配置文件示例 - 多模态组件:
multimodal/- 各种智能代理组件 - 工具函数:
packages/- 共享库和工具函数
小贴士:用户自定义的配置文件和预设通常保存在用户目录下的.tars文件夹中,可通过~/.tars/config.json访问和修改全局设置。
性能优化建议
为获得最佳使用体验,建议进行以下优化设置:
-
模型选择:根据任务复杂度选择合适的模型
- 简单任务:UI-TARS-1.5-7B
- 复杂任务:UI-TARS-1.5-13B(需要更高配置)
-
资源分配:
- 本地运行时确保至少8GB空闲内存
- 远程服务选择GPU加速以提高响应速度
-
网络优化:
- 使用稳定的网络连接,特别是远程模型部署时
- 国内用户可考虑火山引擎等国内服务提供商减少延迟
小贴士:启用"Use Responses API"选项可显著减少令牌消耗并提高响应速度。在"高级设置"中调整"最大循环次数",简单任务设置为25-50,复杂任务可增加到100-200。
常见问题与解决方案
安装问题:
- Windows SmartScreen阻止:点击"更多信息"→"仍要运行"
- macOS应用无法打开:系统设置→隐私与安全性→允许从"任何来源"下载的应用
连接问题:
- 模型连接失败:检查Base URL和API密钥是否正确,测试网络连接
- 响应缓慢:尝试降低模型参数或切换到性能模式,关闭其他占用资源的应用
功能问题:
- 语音识别不准确:在安静环境下使用,尽量使用标准普通话
- 任务执行错误:简化指令,分步骤执行复杂任务,检查是否有足够权限
小贴士:如果遇到无法解决的问题,可以查看应用日志文件(~/.tars/logs/)或提交issue到项目仓库获取帮助。
通过本指南,你已经掌握了UI-TARS智能助手的安装配置、核心功能和高级技巧。这款AI桌面助手将帮助你以更自然、高效的方式与电脑交互,大幅提升工作效率。随着使用深入,你会发现更多实用功能和个性化设置,让UI-TARS成为你日常工作的得力助手。
atomcodeClaude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get StartedRust091- DDeepSeek-V4-ProDeepSeek-V4-Pro(总参数 1.6 万亿,激活 49B)面向复杂推理和高级编程任务,在代码竞赛、数学推理、Agent 工作流等场景表现优异,性能接近国际前沿闭源模型。Python00
MiniMax-M2.7MiniMax-M2.7 是我们首个深度参与自身进化过程的模型。M2.7 具备构建复杂智能体应用框架的能力,能够借助智能体团队、复杂技能以及动态工具搜索,完成高度精细的生产力任务。Python00
GLM-5.1GLM-5.1是智谱迄今最智能的旗舰模型,也是目前全球最强的开源模型。GLM-5.1大大提高了代码能力,在完成长程任务方面提升尤为显著。和此前分钟级交互的模型不同,它能够在一次任务中独立、持续工作超过8小时,期间自主规划、执行、自我进化,最终交付完整的工程级成果。Jinja00
Kimi-K2.6Kimi K2.6 是一款开源的原生多模态智能体模型,在长程编码、编码驱动设计、主动自主执行以及群体任务编排等实用能力方面实现了显著提升。Python00
Hy3-previewHy3 preview 是由腾讯混元团队研发的2950亿参数混合专家(Mixture-of-Experts, MoE)模型,包含210亿激活参数和38亿MTP层参数。Hy3 preview是在我们重构的基础设施上训练的首款模型,也是目前发布的性能最强的模型。该模型在复杂推理、指令遵循、上下文学习、代码生成及智能体任务等方面均实现了显著提升。Python00












