7个核心指令玩转UI-TARS:自然语言控制电脑全攻略
你是否还在为记住复杂的电脑操作命令而烦恼?是否希望能用日常说话的方式轻松控制电脑?UI-TARS-desktop让这一切成为现实!本文将带你掌握7个核心自然语言指令,让你彻底告别繁琐操作,体验用语言掌控电脑的便捷与高效。读完本文,你将能够熟练配置UI-TARS-desktop,轻松使用各种自然语言指令完成电脑操作,还能了解如何自定义和管理指令预设。
安装与配置:开启自然语言控制之旅
要使用UI-TARS-desktop的自然语言指令功能,首先需要完成安装和基本配置。不同操作系统的安装步骤略有差异,以下是详细指南。
下载与安装
你可以从我们的发布页面下载UI-TARS Desktop的最新版本。如果你已安装Homebrew,可以通过以下命令安装:
brew install --cask ui-tars
MacOS系统安装
-
在MacOS中为UI TARS启用权限:
Windows系统安装
模型配置
安装完成后,需要配置视觉语言模型(VLM)以启用自然语言指令功能。UI-TARS-desktop支持多种VLM提供商,以下是两种常用配置示例。
Hugging Face配置
-
在Hugging Face部署UI-TARS-1.5模型,获取Base URL、API Key和Model Name,详细部署说明参考README_deploy.md。
-
打开UI-TARS Desktop应用的设置界面,进行如下配置:
Language: en
VLM Provider: Hugging Face for UI-TARS-1.5
VLM Base URL: https://your-endpoint.huggingface.cloud/v1
VLM API KEY: your_api_key
VLM Model Name: tgi
火山引擎配置
-
访问火山引擎Doubao-1.5-UI-TARS页面,点击右上角的“立即体验”按钮。
-
在API接入页面获取API Key、Base Url和Model name。
-
在UI-TARS Desktop应用的设置界面配置:
Language: cn
VLM Provider: VolcEngine Ark for Doubao-1.5-UI-TARS
VLM Base URL: https://ark.cn-beijing.volces.com/api/v3
VLM API KEY: YOUR_API_KEY
VLM Model Name: doubao-1.5-ui-tars-250328
配置完成后,点击“Check Model Availability”按钮验证模型是否可用。

核心自然语言指令:轻松掌控电脑
UI-TARS-desktop支持多种自然语言指令,以下7个核心指令能满足大部分日常操作需求。
启动应用
指令示例:“打开谷歌浏览器”
该指令将启动指定的应用程序。UI-TARS-desktop会识别系统中已安装的应用,并执行启动操作。你也可以指定应用的具体路径,如“打开D盘下的工作文档文件夹”。
网页浏览
指令示例:“用百度搜索‘人工智能最新进展’”
在使用浏览器相关指令前,请确保已安装Chrome、Edge或Firefox浏览器。UI-TARS-desktop会根据你的本地浏览器搜索引擎设置(支持Google、Bing、Baidu)执行搜索操作。
窗口控制
指令示例:“最大化当前窗口”、“将浏览器窗口移动到屏幕右侧”
这些指令可以控制窗口的大小和位置,让你轻松管理桌面布局。UI-TARS-desktop支持多种窗口操作,如最小化、最大化、关闭、移动、调整大小等。
文件操作
指令示例:“创建一个名为‘UI-TARS笔记’的文本文档”、“删除桌面上的‘无用文件.txt’”
通过自然语言指令,你可以方便地进行文件和文件夹的创建、删除、重命名等操作。请谨慎使用删除指令,以免误删重要文件。
系统设置
指令示例:“将系统音量调至50%”、“开启夜间模式”
UI-TARS-desktop可以控制部分系统设置,让你无需手动调整系统参数。目前支持音量控制、显示亮度调节、深色/浅色模式切换等功能。
报告生成与分享
指令示例:“导出当前操作报告”
完成一系列操作后,你可以使用该指令生成HTML格式的操作报告。如果配置了报告存储服务器,报告将自动上传并生成可分享的链接。
上传成功后,报告链接将复制到剪贴板,方便你分享给他人。

任务自动化
指令示例:“每天下午5点自动发送工作汇报邮件”
通过结合多个基本指令,你可以实现简单的任务自动化。这需要使用预设功能来保存和管理复杂的指令序列。
预设管理:个性化你的指令集
预设是一组设置的集合,UI-TARS-desktop支持通过文件或URL导入预设,方便你管理不同场景下的指令配置。
预设类型
UI-TARS-desktop提供两种预设类型,满足不同需求:
| 特性 | 本地预设 | 远程预设 |
|---|---|---|
| 存储位置 | 设备本地 | 云端托管 |
| 更新机制 | 手动 | 自动 |
| 访问权限 | 读写 | 只读 |
| 版本控制 | 手动 | Git集成 |
graph TD
A[Import Preset] --> B{Preset Type}
B -->|File| C[YAML File]
B -->|URL| D[URL Endpoint]
C --> E[Manual Updates 🔧]
D --> F[Auto Sync ⚡]
导入预设
从文件导入
如果导入失败,可能是文件内容无效,检查文件格式和内容后重试。

从URL导入
- 打开设置界面,选择从URL导入
- 输入预设文件的URL地址,UI-TARS-desktop将自动获取并应用预设
- 如果启用自动更新,每次应用启动时都会自动同步预设
预设示例
以下是一个预设文件的示例,你可以根据自己的需求修改:
name: UI TARS Desktop Example Preset
language: en
vlmProvider: Hugging Face for UI-TARS-1.5
vlmBaseUrl: https://your-endpoint.huggingface.cloud/v1
vlmApiKey: your_api_key
vlmModelName: your_model_name
reportStorageBaseUrl: https://your-report-storage-endpoint.com/upload
utioBaseUrl: https://your-utio-endpoint.com/collect
你可以在examples/presets/目录中找到更多预设示例。
高级设置:优化你的指令体验
UI-TARS-desktop提供了多种高级设置,让你可以根据自己的使用习惯优化自然语言指令的执行效果。
聊天设置
- 语言:控制VLM的输出语言,支持英语(en)和中文(zh)
- 最大循环次数:每轮对话的最大步骤数,范围为25-200,默认100
- 循环等待时间:每个步骤之间的等待时间,范围为0-3000毫秒,默认1000毫秒,对于需要时间完成的交互操作,适当增加等待时间可以确保正确捕获操作结果
UTIO数据收集
UTIO(UI-TARS Insights and Observation)是UI-TARS Desktop的数据收集机制,用于改进用户体验。其工作流程如下:
你可以通过配置UTIO Base URL来启用或禁用此功能。
总结与展望
通过本文介绍的7个核心指令,你已经能够使用自然语言轻松控制电脑。从基本的应用启动、网页浏览,到复杂的任务自动化,UI-TARS-desktop让电脑操作变得简单而高效。
未来,UI-TARS-desktop将支持更多系统功能和应用程序的控制,进一步丰富自然语言指令的种类和能力。我们也欢迎社区开发者贡献更多的预设示例,共同完善这个强大的自然语言控制工具。
现在,赶快安装UI-TARS-desktop,体验用语言掌控电脑的全新方式吧!如果你在使用过程中遇到任何问题,或有新的功能需求,请提交issue与我们交流。
GLM-5智谱 AI 正式发布 GLM-5,旨在应对复杂系统工程和长时域智能体任务。Jinja00
GLM-5-w4a8GLM-5-w4a8基于混合专家架构,专为复杂系统工程与长周期智能体任务设计。支持单/多节点部署,适配Atlas 800T A3,采用w4a8量化技术,结合vLLM推理优化,高效平衡性能与精度,助力智能应用开发Jinja00
请把这个活动推给顶尖程序员😎本次活动专为懂行的顶尖程序员量身打造,聚焦AtomGit首发开源模型的实际应用与深度测评,拒绝大众化浅层体验,邀请具备扎实技术功底、开源经验或模型测评能力的顶尖开发者,深度参与模型体验、性能测评,通过发布技术帖子、提交测评报告、上传实践项目成果等形式,挖掘模型核心价值,共建AtomGit开源模型生态,彰显顶尖程序员的技术洞察力与实践能力。00
Kimi-K2.5Kimi K2.5 是一款开源的原生多模态智能体模型,它在 Kimi-K2-Base 的基础上,通过对约 15 万亿混合视觉和文本 tokens 进行持续预训练构建而成。该模型将视觉与语言理解、高级智能体能力、即时模式与思考模式,以及对话式与智能体范式无缝融合。Python00
MiniMax-M2.5MiniMax-M2.5开源模型,经数十万复杂环境强化训练,在代码生成、工具调用、办公自动化等经济价值任务中表现卓越。SWE-Bench Verified得分80.2%,Multi-SWE-Bench达51.3%,BrowseComp获76.3%。推理速度比M2.1快37%,与Claude Opus 4.6相当,每小时仅需0.3-1美元,成本仅为同类模型1/10-1/20,为智能应用开发提供高效经济选择。【此简介由AI生成】Python00
Qwen3.5Qwen3.5 昇腾 vLLM 部署教程。Qwen3.5 是 Qwen 系列最新的旗舰多模态模型,采用 MoE(混合专家)架构,在保持强大模型能力的同时显著降低了推理成本。00- RRing-2.5-1TRing-2.5-1T:全球首个基于混合线性注意力架构的开源万亿参数思考模型。Python00







