7个核心指令玩转UI-TARS:自然语言控制电脑全攻略
你是否还在为记住复杂的电脑操作命令而烦恼?是否希望能用日常说话的方式轻松控制电脑?UI-TARS-desktop让这一切成为现实!本文将带你掌握7个核心自然语言指令,让你彻底告别繁琐操作,体验用语言掌控电脑的便捷与高效。读完本文,你将能够熟练配置UI-TARS-desktop,轻松使用各种自然语言指令完成电脑操作,还能了解如何自定义和管理指令预设。
安装与配置:开启自然语言控制之旅
要使用UI-TARS-desktop的自然语言指令功能,首先需要完成安装和基本配置。不同操作系统的安装步骤略有差异,以下是详细指南。
下载与安装
你可以从我们的发布页面下载UI-TARS Desktop的最新版本。如果你已安装Homebrew,可以通过以下命令安装:
brew install --cask ui-tars
MacOS系统安装
-
在MacOS中为UI TARS启用权限:
Windows系统安装
模型配置
安装完成后,需要配置视觉语言模型(VLM)以启用自然语言指令功能。UI-TARS-desktop支持多种VLM提供商,以下是两种常用配置示例。
Hugging Face配置
-
在Hugging Face部署UI-TARS-1.5模型,获取Base URL、API Key和Model Name,详细部署说明参考README_deploy.md。
-
打开UI-TARS Desktop应用的设置界面,进行如下配置:
Language: en
VLM Provider: Hugging Face for UI-TARS-1.5
VLM Base URL: https://your-endpoint.huggingface.cloud/v1
VLM API KEY: your_api_key
VLM Model Name: tgi
火山引擎配置
-
访问火山引擎Doubao-1.5-UI-TARS页面,点击右上角的“立即体验”按钮。
-
在API接入页面获取API Key、Base Url和Model name。
-
在UI-TARS Desktop应用的设置界面配置:
Language: cn
VLM Provider: VolcEngine Ark for Doubao-1.5-UI-TARS
VLM Base URL: https://ark.cn-beijing.volces.com/api/v3
VLM API KEY: YOUR_API_KEY
VLM Model Name: doubao-1.5-ui-tars-250328
配置完成后,点击“Check Model Availability”按钮验证模型是否可用。

核心自然语言指令:轻松掌控电脑
UI-TARS-desktop支持多种自然语言指令,以下7个核心指令能满足大部分日常操作需求。
启动应用
指令示例:“打开谷歌浏览器”
该指令将启动指定的应用程序。UI-TARS-desktop会识别系统中已安装的应用,并执行启动操作。你也可以指定应用的具体路径,如“打开D盘下的工作文档文件夹”。
网页浏览
指令示例:“用百度搜索‘人工智能最新进展’”
在使用浏览器相关指令前,请确保已安装Chrome、Edge或Firefox浏览器。UI-TARS-desktop会根据你的本地浏览器搜索引擎设置(支持Google、Bing、Baidu)执行搜索操作。
窗口控制
指令示例:“最大化当前窗口”、“将浏览器窗口移动到屏幕右侧”
这些指令可以控制窗口的大小和位置,让你轻松管理桌面布局。UI-TARS-desktop支持多种窗口操作,如最小化、最大化、关闭、移动、调整大小等。
文件操作
指令示例:“创建一个名为‘UI-TARS笔记’的文本文档”、“删除桌面上的‘无用文件.txt’”
通过自然语言指令,你可以方便地进行文件和文件夹的创建、删除、重命名等操作。请谨慎使用删除指令,以免误删重要文件。
系统设置
指令示例:“将系统音量调至50%”、“开启夜间模式”
UI-TARS-desktop可以控制部分系统设置,让你无需手动调整系统参数。目前支持音量控制、显示亮度调节、深色/浅色模式切换等功能。
报告生成与分享
指令示例:“导出当前操作报告”
完成一系列操作后,你可以使用该指令生成HTML格式的操作报告。如果配置了报告存储服务器,报告将自动上传并生成可分享的链接。
上传成功后,报告链接将复制到剪贴板,方便你分享给他人。

任务自动化
指令示例:“每天下午5点自动发送工作汇报邮件”
通过结合多个基本指令,你可以实现简单的任务自动化。这需要使用预设功能来保存和管理复杂的指令序列。
预设管理:个性化你的指令集
预设是一组设置的集合,UI-TARS-desktop支持通过文件或URL导入预设,方便你管理不同场景下的指令配置。
预设类型
UI-TARS-desktop提供两种预设类型,满足不同需求:
| 特性 | 本地预设 | 远程预设 |
|---|---|---|
| 存储位置 | 设备本地 | 云端托管 |
| 更新机制 | 手动 | 自动 |
| 访问权限 | 读写 | 只读 |
| 版本控制 | 手动 | Git集成 |
graph TD
A[Import Preset] --> B{Preset Type}
B -->|File| C[YAML File]
B -->|URL| D[URL Endpoint]
C --> E[Manual Updates 🔧]
D --> F[Auto Sync ⚡]
导入预设
从文件导入
如果导入失败,可能是文件内容无效,检查文件格式和内容后重试。

从URL导入
- 打开设置界面,选择从URL导入
- 输入预设文件的URL地址,UI-TARS-desktop将自动获取并应用预设
- 如果启用自动更新,每次应用启动时都会自动同步预设
预设示例
以下是一个预设文件的示例,你可以根据自己的需求修改:
name: UI TARS Desktop Example Preset
language: en
vlmProvider: Hugging Face for UI-TARS-1.5
vlmBaseUrl: https://your-endpoint.huggingface.cloud/v1
vlmApiKey: your_api_key
vlmModelName: your_model_name
reportStorageBaseUrl: https://your-report-storage-endpoint.com/upload
utioBaseUrl: https://your-utio-endpoint.com/collect
你可以在examples/presets/目录中找到更多预设示例。
高级设置:优化你的指令体验
UI-TARS-desktop提供了多种高级设置,让你可以根据自己的使用习惯优化自然语言指令的执行效果。
聊天设置
- 语言:控制VLM的输出语言,支持英语(en)和中文(zh)
- 最大循环次数:每轮对话的最大步骤数,范围为25-200,默认100
- 循环等待时间:每个步骤之间的等待时间,范围为0-3000毫秒,默认1000毫秒,对于需要时间完成的交互操作,适当增加等待时间可以确保正确捕获操作结果
UTIO数据收集
UTIO(UI-TARS Insights and Observation)是UI-TARS Desktop的数据收集机制,用于改进用户体验。其工作流程如下:
你可以通过配置UTIO Base URL来启用或禁用此功能。
总结与展望
通过本文介绍的7个核心指令,你已经能够使用自然语言轻松控制电脑。从基本的应用启动、网页浏览,到复杂的任务自动化,UI-TARS-desktop让电脑操作变得简单而高效。
未来,UI-TARS-desktop将支持更多系统功能和应用程序的控制,进一步丰富自然语言指令的种类和能力。我们也欢迎社区开发者贡献更多的预设示例,共同完善这个强大的自然语言控制工具。
现在,赶快安装UI-TARS-desktop,体验用语言掌控电脑的全新方式吧!如果你在使用过程中遇到任何问题,或有新的功能需求,请提交issue与我们交流。
Kimi-K2.5Kimi K2.5 是一款开源的原生多模态智能体模型,它在 Kimi-K2-Base 的基础上,通过对约 15 万亿混合视觉和文本 tokens 进行持续预训练构建而成。该模型将视觉与语言理解、高级智能体能力、即时模式与思考模式,以及对话式与智能体范式无缝融合。Python00- QQwen3-Coder-Next2026年2月4日,正式发布的Qwen3-Coder-Next,一款专为编码智能体和本地开发场景设计的开源语言模型。Python00
xw-cli实现国产算力大模型零门槛部署,一键跑通 Qwen、GLM-4.7、Minimax-2.1、DeepSeek-OCR 等模型Go06
PaddleOCR-VL-1.5PaddleOCR-VL-1.5 是 PaddleOCR-VL 的新一代进阶模型,在 OmniDocBench v1.5 上实现了 94.5% 的全新 state-of-the-art 准确率。 为了严格评估模型在真实物理畸变下的鲁棒性——包括扫描伪影、倾斜、扭曲、屏幕拍摄和光照变化——我们提出了 Real5-OmniDocBench 基准测试集。实验结果表明,该增强模型在新构建的基准测试集上达到了 SOTA 性能。此外,我们通过整合印章识别和文本检测识别(text spotting)任务扩展了模型的能力,同时保持 0.9B 的超紧凑 VLM 规模,具备高效率特性。Python00
KuiklyUI基于KMP技术的高性能、全平台开发框架,具备统一代码库、极致易用性和动态灵活性。 Provide a high-performance, full-platform development framework with unified codebase, ultimate ease of use, and dynamic flexibility. 注意:本仓库为Github仓库镜像,PR或Issue请移步至Github发起,感谢支持!Kotlin08
VLOOKVLOOK™ 是优雅好用的 Typora/Markdown 主题包和增强插件。 VLOOK™ is an elegant and practical THEME PACKAGE × ENHANCEMENT PLUGIN for Typora/Markdown.Less00







