CUA支持的模型大全:从Claude到UI-TARS的完整列表
2026-02-04 05:13:39作者:江焘钦
还在为选择合适的计算机使用(Computer-Use)模型而烦恼?CUA框架提供了业界最全面的模型支持体系,从云端大厂到本地开源模型,从全功能智能体到专业点击预测模型,一应俱全。本文将为你详细解析CUA支持的所有模型类型、使用场景和配置方法。
📋 模型分类总览
CUA支持的模型可分为四大类,每类都有其独特优势和适用场景:
| 模型类型 | 核心能力 | 典型模型 | 适用场景 |
|---|---|---|---|
| 全功能智能体 | 自主任务规划+执行 | Claude系列、OpenAI CUA | 复杂多步任务自动化 |
| 统一视觉语言模型 | 端到端视觉理解 | UI-TARS、GLM-4.5V | 视觉密集型任务 |
| 组合式智能体 | 规划+执行分离 | GTA1+LLM、OmniParser+LLM | 成本优化+高精度 |
| 专业点击预测 | 精准坐标定位 | GTA1、专业grounding模型 | UI元素精确定位 |
🚀 全功能计算机使用智能体
Anthropic Claude系列
Claude模型提供业界领先的计算机使用能力,支持完整的自主任务执行:
# Claude 4.1系列 - 最新最强版本
model="anthropic/claude-opus-4-1-20250805"
# Claude 4系列 - 稳定高性能版本
model="anthropic/claude-opus-4-20250514"
model="anthropic/claude-sonnet-4-20250514"
# Claude 3.7系列 - 性价比优选
model="anthropic/claude-3-7-sonnet-20250219"
# Claude 3.5系列 - 经典可靠版本
model="anthropic/claude-3-5-sonnet-20241022"
使用示例:
from agent import ComputerAgent
from computer import Computer
async with Computer(os_type="linux") as computer:
agent = ComputerAgent(
model="anthropic/claude-3-5-sonnet-20241022",
tools=[computer],
max_trajectory_budget=5.0
)
# 复杂多步任务自动化
async for result in agent.run("打开Firefox浏览器,访问github.com,搜索'computer-use'项目"):
# 处理执行结果
pass
OpenAI计算机使用预览版
OpenAI提供的计算机使用预览模型,具备强大的视觉理解和操作能力:
model="openai/computer-use-preview"
🎯 统一视觉语言模型
UI-TARS 1.5系列
字节跳动开源的统一视觉语言模型,专为计算机使用场景优化:
# Hugging Face本地部署
model="huggingface-local/ByteDance-Seed/UI-TARS-1.5-7B"
# TGI服务端点(需要TGI服务)
model="huggingface/ByteDance-Seed/UI-TARS-1.5-7B"
# MLX优化版本(Apple Silicon)
model="mlx/mlx-community/UI-TARS-1.5-7B-6bit"
# Ollama部署
model="ollama_chat/0000/ui-tars-1.5-7b"
GLM-4.5V系列
智谱AI的视觉语言模型,具备优秀的计算机使用能力:
# OpenRouter服务
model="openrouter/z-ai/glm-4.5v"
# Hugging Face本地部署
model="huggingface-local/zai-org/GLM-4.5V"
🔄 组合式智能体架构
组合式智能体采用"规划模型+执行模型"的架构,实现最佳的成本效益比:
语法格式
model="grounding_model+thinking_model"
支持的规划模型(Thinking Model)
# Anthropic系列
"anthropic/claude-3-5-sonnet-20241022"
"anthropic/claude-3-opus-20240229"
# OpenAI系列
"openai/gpt-5"
"openai/gpt-o3"
"openai/gpt-4o"
# Google系列
"gemini/gemini-1.5-pro"
"vertex_ai/gemini-pro-vision"
# 本地模型(任何Hugging Face视觉语言模型)
"huggingface-local/your-vision-model"
支持的执行模型(Grounding Model)
# OmniParser(OCR专用)
"omniparser"
# GTA1系列(专业点击预测)
"huggingface-local/HelloKKMe/GTA1-7B"
"huggingface/HelloKKMe/GTA1-32B"
"vllm_hosted/HelloKKMe/GTA1-72B"
# UI-TARS(统一模型)
"huggingface-local/ByteDance-Seed/UI-TARS-1.5-7B"
# 全功能模型也可作为执行组件
"claude-3-5-sonnet-20241022"
"openai/computer-use-preview"
组合示例
# GTA1专业点击 + GPT-5强大规划
model="huggingface-local/HelloKKMe/GTA1-7B+openai/gpt-5"
# GTA1 + Claude 3.5 Sonnet(性价比优选)
model="huggingface-local/HelloKKMe/GTA1-7B+anthropic/claude-3-5-sonnet-20241022"
# UI-TARS + GPT-4o(双视觉模型增强)
model="huggingface-local/ByteDance-Seed/UI-TARS-1.5-7B+openai/gpt-4o"
# OmniParser + 本地模型(完全离线方案)
model="omniparser+ollama_chat/mistral-small3.2"
🎯 专业点击预测模型
GTA1系列
专为UI元素定位优化的专业模型,在GUI Agent Grounding Leaderboard上表现优异:
# 7B版本(轻量高效)
model="huggingface-local/HelloKKMe/GTA1-7B"
# 32B版本(更高精度)
model="huggingface/HelloKKMe/GTA1-32B"
# 72B版本(顶级性能)
model="vllm_hosted/HelloKKMe/GTA1-72B"
专业点击预测使用:
agent = ComputerAgent("huggingface-local/HelloKKMe/GTA1-7B", tools=[computer])
# 精准定位UI元素坐标
login_coords = agent.predict_click("定位登录按钮")
search_coords = agent.predict_click("找到搜索输入框")
menu_coords = agent.predict_click("识别汉堡菜单图标")
print(f"登录按钮坐标: {login_coords}")
print(f"搜索框坐标: {search_coords}")
print(f"菜单图标坐标: {menu_coords}")
🏠 本地部署方案
Hugging Face Transformers
# 任何Hugging Face模型
model="huggingface-local/模型名称"
MLX(Apple Silicon优化)
# MLX社区优化版本
model="mlx/mlx-community/模型名称"
Ollama
# Ollama本地模型
model="ollama_chat/模型名称"
📊 模型选择指南
根据任务复杂度选择
flowchart TD
A[任务类型] --> B{简单点击任务}
A --> C{中等复杂度任务}
A --> D{复杂多步任务}
B --> E[专业点击模型<br/>GTA1系列]
C --> F[统一视觉模型<br/>UI-TARS/GLM-4.5V]
D --> G[全功能智能体<br/>Claude/OpenAI CUA]
E --> H[成本: $<br/>精度: ⭐⭐⭐⭐⭐]
F --> I[成本: $$<br/>能力: ⭐⭐⭐⭐]
G --> J[成本: $$$<br/>能力: ⭐⭐⭐⭐⭐]
根据部署环境选择
| 环境需求 | 推荐模型 | 优势 |
|---|---|---|
| 完全离线 | UI-TARS本地版 + Ollama | 零网络依赖,数据安全 |
| 成本敏感 | GTA1+轻量LLM | 专业点击+廉价规划 |
| 高性能 | Claude 4.1系列 | 最强能力,响应最快 |
| 开发测试 | OpenAI CUA预览版 | 快速原型验证 |
根据精度要求选择
pie title 点击预测精度对比
"GTA1-72B" : 35
"GTA1-32B" : 30
"GTA1-7B" : 25
"UI-TARS" : 10
⚙️ 安装配置指南
基础安装
# 全功能安装
pip install "cua-agent[all]"
# 按需安装
pip install "cua-agent[openai]" # OpenAI支持
pip install "cua-agent[anthropic]" # Anthropic支持
pip install "cua-agent[omni]" # OmniParser支持
pip install "cua-agent[uitars]" # UI-TARS支持
pip install "cua-agent[uitars-mlx]" # UI-TARS + MLX支持
pip install "cua-agent[uitars-hf]" # UI-TARS + Huggingface支持
pip install "cua-agent[glm45v-hf]" # GLM-4.5V支持
环境变量配置
# API密钥配置
export ANTHROPIC_API_KEY="your-anthropic-key"
export OPENAI_API_KEY="your-openai-key"
export OPENROUTER_API_KEY="your-openrouter-key"
# 计算机实例配置
export CUA_CONTAINER_NAME="your-container-name"
export CUA_API_KEY="your-cua-api-key"
🎯 最佳实践示例
企业级自动化流程
# 使用Claude 4.1处理复杂业务流程
agent = ComputerAgent(
model="anthropic/claude-opus-4-1-20250805",
tools=[computer],
callbacks=[BudgetManagerCallback(max_budget=50.0)],
trajectory_dir="enterprise_automation"
)
# 自动化财务报销流程
task = """
1. 登录公司管理系统
2. 进入报销申请模块
3. 填写报销信息:交通费200元,餐饮费150元
4. 上传发票附件
5. 提交审批流程
6. 确认提交成功并截图保存
"""
async for result in agent.run(task):
# 监控执行过程并记录
log_trajectory(result)
高精度UI测试自动化
# 使用GTA1专业模型进行精准UI测试
agent = ComputerAgent(
model="huggingface-local/HelloKKMe/GTA1-7B+anthropic/claude-3-5-sonnet-20241022",
tools=[computer]
)
# 精确测试登录流程
test_cases = [
"定位用户名输入框并输入'testuser'",
"定位密码输入框并输入'password123'",
"定位登录按钮并点击",
"验证登录成功后的欢迎页面"
]
for test_case in test_cases:
coords = agent.predict_click(test_case)
execute_click(coords)
validate_result()
🔮 未来模型支持规划
CUA团队持续关注并集成最新的计算机使用模型:
- 多模态模型扩展:支持更多视觉-语言-动作统一模型
- 专业领域优化:针对金融、医疗、制造等垂直领域的专用模型
- 边缘计算优化:超轻量级模型支持移动设备和IoT设备
- 开源生态建设:与更多开源模型社区深度合作
📝 总结
CUA提供了业界最全面的计算机使用模型支持体系,从云端大厂的商业模型到本地部署的开源方案,从全功能自主智能体到专业点击预测模型,满足不同场景、不同预算、不同技术栈的用户需求。
无论你是需要处理复杂业务流程的企业用户,还是进行高精度UI测试的开发者,或是追求成本优化的初创团队,都能在CUA的模型生态中找到合适的解决方案。
立即开始你的计算机使用智能体之旅,选择合适的模型,释放自动化潜能!
登录后查看全文
热门项目推荐
相关项目推荐
Kimi-K2.5Kimi K2.5 是一款开源的原生多模态智能体模型,它在 Kimi-K2-Base 的基础上,通过对约 15 万亿混合视觉和文本 tokens 进行持续预训练构建而成。该模型将视觉与语言理解、高级智能体能力、即时模式与思考模式,以及对话式与智能体范式无缝融合。Python00
GLM-4.7-FlashGLM-4.7-Flash 是一款 30B-A3B MoE 模型。作为 30B 级别中的佼佼者,GLM-4.7-Flash 为追求性能与效率平衡的轻量化部署提供了全新选择。Jinja00
VLOOKVLOOK™ 是优雅好用的 Typora/Markdown 主题包和增强插件。 VLOOK™ is an elegant and practical THEME PACKAGE × ENHANCEMENT PLUGIN for Typora/Markdown.Less00
PaddleOCR-VL-1.5PaddleOCR-VL-1.5 是 PaddleOCR-VL 的新一代进阶模型,在 OmniDocBench v1.5 上实现了 94.5% 的全新 state-of-the-art 准确率。 为了严格评估模型在真实物理畸变下的鲁棒性——包括扫描伪影、倾斜、扭曲、屏幕拍摄和光照变化——我们提出了 Real5-OmniDocBench 基准测试集。实验结果表明,该增强模型在新构建的基准测试集上达到了 SOTA 性能。此外,我们通过整合印章识别和文本检测识别(text spotting)任务扩展了模型的能力,同时保持 0.9B 的超紧凑 VLM 规模,具备高效率特性。Python00
KuiklyUI基于KMP技术的高性能、全平台开发框架,具备统一代码库、极致易用性和动态灵活性。 Provide a high-performance, full-platform development framework with unified codebase, ultimate ease of use, and dynamic flexibility. 注意:本仓库为Github仓库镜像,PR或Issue请移步至Github发起,感谢支持!Kotlin07
compass-metrics-modelMetrics model project for the OSS CompassPython00
项目优选
收起
deepin linux kernel
C
27
11
OpenHarmony documentation | OpenHarmony开发者文档
Dockerfile
525
3.72 K
Ascend Extension for PyTorch
Python
329
391
本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。
C++
877
578
openEuler内核是openEuler操作系统的核心,既是系统性能与稳定性的基石,也是连接处理器、设备与服务的桥梁。
C
335
162
暂无简介
Dart
764
189
Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台,包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分,采用java语言实现,可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用
Java
12
1
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
1.33 K
746
🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer(第 2 版)》、《程序员面试金典(第 6 版)》题解
Java
67
20
React Native鸿蒙化仓库
JavaScript
302
350