首页
/ 7个核心指令玩转UI-TARS:自然语言控制电脑全攻略

7个核心指令玩转UI-TARS:自然语言控制电脑全攻略

2026-02-04 05:15:46作者:蔡丛锟

你是否还在为记住复杂的电脑操作命令而烦恼?是否希望能用日常说话的方式轻松控制电脑?UI-TARS-desktop让这一切成为现实!本文将带你掌握7个核心自然语言指令,让你彻底告别繁琐操作,体验用语言掌控电脑的便捷与高效。读完本文,你将能够熟练配置UI-TARS-desktop,轻松使用各种自然语言指令完成电脑操作,还能了解如何自定义和管理指令预设。

安装与配置:开启自然语言控制之旅

要使用UI-TARS-desktop的自然语言指令功能,首先需要完成安装和基本配置。不同操作系统的安装步骤略有差异,以下是详细指南。

下载与安装

你可以从我们的发布页面下载UI-TARS Desktop的最新版本。如果你已安装Homebrew,可以通过以下命令安装:

brew install --cask ui-tars

MacOS系统安装

  1. UI TARS应用拖入应用程序文件夹 Mac安装步骤1

  2. 在MacOS中为UI TARS启用权限:

    • 系统设置 -> 隐私与安全性 -> 辅助功能
    • 系统设置 -> 隐私与安全性 -> 屏幕录制 Mac权限设置
  3. 打开UI TARS应用,你将看到以下界面: Mac应用界面

Windows系统安装

运行应用程序后,你将看到如下界面: Windows安装界面

模型配置

安装完成后,需要配置视觉语言模型(VLM)以启用自然语言指令功能。UI-TARS-desktop支持多种VLM提供商,以下是两种常用配置示例。

Hugging Face配置

  1. 在Hugging Face部署UI-TARS-1.5模型,获取Base URLAPI KeyModel Name,详细部署说明参考README_deploy.md

  2. 打开UI-TARS Desktop应用的设置界面,进行如下配置:

Language: en
VLM Provider: Hugging Face for UI-TARS-1.5
VLM Base URL: https://your-endpoint.huggingface.cloud/v1
VLM API KEY: your_api_key
VLM Model Name: tgi

Hugging Face设置

火山引擎配置

  1. 访问火山引擎Doubao-1.5-UI-TARS页面,点击右上角的“立即体验”按钮。

  2. 在API接入页面获取API KeyBase UrlModel name

  3. 在UI-TARS Desktop应用的设置界面配置:

Language: cn
VLM Provider: VolcEngine Ark for Doubao-1.5-UI-TARS
VLM Base URL: https://ark.cn-beijing.volces.com/api/v3
VLM API KEY: YOUR_API_KEY
VLM Model Name: doubao-1.5-ui-tars-250328

火山引擎设置

配置完成后,点击“Check Model Availability”按钮验证模型是否可用。 模型可用性检查

核心自然语言指令:轻松掌控电脑

UI-TARS-desktop支持多种自然语言指令,以下7个核心指令能满足大部分日常操作需求。

启动应用

指令示例:“打开谷歌浏览器”

该指令将启动指定的应用程序。UI-TARS-desktop会识别系统中已安装的应用,并执行启动操作。你也可以指定应用的具体路径,如“打开D盘下的工作文档文件夹”。

网页浏览

指令示例:“用百度搜索‘人工智能最新进展’”

在使用浏览器相关指令前,请确保已安装Chrome、Edge或Firefox浏览器。UI-TARS-desktop会根据你的本地浏览器搜索引擎设置(支持Google、Bing、Baidu)执行搜索操作。

窗口控制

指令示例:“最大化当前窗口”、“将浏览器窗口移动到屏幕右侧”

这些指令可以控制窗口的大小和位置,让你轻松管理桌面布局。UI-TARS-desktop支持多种窗口操作,如最小化、最大化、关闭、移动、调整大小等。

文件操作

指令示例:“创建一个名为‘UI-TARS笔记’的文本文档”、“删除桌面上的‘无用文件.txt’”

通过自然语言指令,你可以方便地进行文件和文件夹的创建、删除、重命名等操作。请谨慎使用删除指令,以免误删重要文件。

系统设置

指令示例:“将系统音量调至50%”、“开启夜间模式”

UI-TARS-desktop可以控制部分系统设置,让你无需手动调整系统参数。目前支持音量控制、显示亮度调节、深色/浅色模式切换等功能。

报告生成与分享

指令示例:“导出当前操作报告”

完成一系列操作后,你可以使用该指令生成HTML格式的操作报告。如果配置了报告存储服务器,报告将自动上传并生成可分享的链接。 导出报告 上传成功后,报告链接将复制到剪贴板,方便你分享给他人。 上传报告成功

任务自动化

指令示例:“每天下午5点自动发送工作汇报邮件”

通过结合多个基本指令,你可以实现简单的任务自动化。这需要使用预设功能来保存和管理复杂的指令序列。

预设管理:个性化你的指令集

预设是一组设置的集合,UI-TARS-desktop支持通过文件或URL导入预设,方便你管理不同场景下的指令配置。

预设类型

UI-TARS-desktop提供两种预设类型,满足不同需求:

特性 本地预设 远程预设
存储位置 设备本地 云端托管
更新机制 手动 自动
访问权限 读写 只读
版本控制 手动 Git集成
graph TD
    A[Import Preset] --> B{Preset Type}
    B -->|File| C[YAML File]
    B -->|URL| D[URL Endpoint]
    C --> E[Manual Updates 🔧]
    D --> F[Auto Sync ⚡]

导入预设

从文件导入

  1. 打开设置界面 打开设置
  2. 选择本地YAML格式的预设文件,导入成功后设置将自动更新 导入成功

如果导入失败,可能是文件内容无效,检查文件格式和内容后重试。 导入失败

从URL导入

  1. 打开设置界面,选择从URL导入
  2. 输入预设文件的URL地址,UI-TARS-desktop将自动获取并应用预设
  3. 如果启用自动更新,每次应用启动时都会自动同步预设

预设示例

以下是一个预设文件的示例,你可以根据自己的需求修改:

name: UI TARS Desktop Example Preset
language: en
vlmProvider: Hugging Face for UI-TARS-1.5
vlmBaseUrl: https://your-endpoint.huggingface.cloud/v1
vlmApiKey: your_api_key
vlmModelName: your_model_name
reportStorageBaseUrl: https://your-report-storage-endpoint.com/upload
utioBaseUrl: https://your-utio-endpoint.com/collect

你可以在examples/presets/目录中找到更多预设示例。

高级设置:优化你的指令体验

UI-TARS-desktop提供了多种高级设置,让你可以根据自己的使用习惯优化自然语言指令的执行效果。

聊天设置

  • 语言:控制VLM的输出语言,支持英语(en)和中文(zh)
  • 最大循环次数:每轮对话的最大步骤数,范围为25-200,默认100
  • 循环等待时间:每个步骤之间的等待时间,范围为0-3000毫秒,默认1000毫秒,对于需要时间完成的交互操作,适当增加等待时间可以确保正确捕获操作结果

UTIO数据收集

UTIO(UI-TARS Insights and Observation)是UI-TARS Desktop的数据收集机制,用于改进用户体验。其工作流程如下: UTIO流程 你可以通过配置UTIO Base URL来启用或禁用此功能。

总结与展望

通过本文介绍的7个核心指令,你已经能够使用自然语言轻松控制电脑。从基本的应用启动、网页浏览,到复杂的任务自动化,UI-TARS-desktop让电脑操作变得简单而高效。

未来,UI-TARS-desktop将支持更多系统功能和应用程序的控制,进一步丰富自然语言指令的种类和能力。我们也欢迎社区开发者贡献更多的预设示例,共同完善这个强大的自然语言控制工具。

现在,赶快安装UI-TARS-desktop,体验用语言掌控电脑的全新方式吧!如果你在使用过程中遇到任何问题,或有新的功能需求,请提交issue与我们交流。

登录后查看全文
热门项目推荐
相关项目推荐