CUA支持的模型大全:从Claude到UI-TARS的完整列表
2026-02-04 05:13:39作者:江焘钦
还在为选择合适的计算机使用(Computer-Use)模型而烦恼?CUA框架提供了业界最全面的模型支持体系,从云端大厂到本地开源模型,从全功能智能体到专业点击预测模型,一应俱全。本文将为你详细解析CUA支持的所有模型类型、使用场景和配置方法。
📋 模型分类总览
CUA支持的模型可分为四大类,每类都有其独特优势和适用场景:
| 模型类型 | 核心能力 | 典型模型 | 适用场景 |
|---|---|---|---|
| 全功能智能体 | 自主任务规划+执行 | Claude系列、OpenAI CUA | 复杂多步任务自动化 |
| 统一视觉语言模型 | 端到端视觉理解 | UI-TARS、GLM-4.5V | 视觉密集型任务 |
| 组合式智能体 | 规划+执行分离 | GTA1+LLM、OmniParser+LLM | 成本优化+高精度 |
| 专业点击预测 | 精准坐标定位 | GTA1、专业grounding模型 | UI元素精确定位 |
🚀 全功能计算机使用智能体
Anthropic Claude系列
Claude模型提供业界领先的计算机使用能力,支持完整的自主任务执行:
# Claude 4.1系列 - 最新最强版本
model="anthropic/claude-opus-4-1-20250805"
# Claude 4系列 - 稳定高性能版本
model="anthropic/claude-opus-4-20250514"
model="anthropic/claude-sonnet-4-20250514"
# Claude 3.7系列 - 性价比优选
model="anthropic/claude-3-7-sonnet-20250219"
# Claude 3.5系列 - 经典可靠版本
model="anthropic/claude-3-5-sonnet-20241022"
使用示例:
from agent import ComputerAgent
from computer import Computer
async with Computer(os_type="linux") as computer:
agent = ComputerAgent(
model="anthropic/claude-3-5-sonnet-20241022",
tools=[computer],
max_trajectory_budget=5.0
)
# 复杂多步任务自动化
async for result in agent.run("打开Firefox浏览器,访问github.com,搜索'computer-use'项目"):
# 处理执行结果
pass
OpenAI计算机使用预览版
OpenAI提供的计算机使用预览模型,具备强大的视觉理解和操作能力:
model="openai/computer-use-preview"
🎯 统一视觉语言模型
UI-TARS 1.5系列
字节跳动开源的统一视觉语言模型,专为计算机使用场景优化:
# Hugging Face本地部署
model="huggingface-local/ByteDance-Seed/UI-TARS-1.5-7B"
# TGI服务端点(需要TGI服务)
model="huggingface/ByteDance-Seed/UI-TARS-1.5-7B"
# MLX优化版本(Apple Silicon)
model="mlx/mlx-community/UI-TARS-1.5-7B-6bit"
# Ollama部署
model="ollama_chat/0000/ui-tars-1.5-7b"
GLM-4.5V系列
智谱AI的视觉语言模型,具备优秀的计算机使用能力:
# OpenRouter服务
model="openrouter/z-ai/glm-4.5v"
# Hugging Face本地部署
model="huggingface-local/zai-org/GLM-4.5V"
🔄 组合式智能体架构
组合式智能体采用"规划模型+执行模型"的架构,实现最佳的成本效益比:
语法格式
model="grounding_model+thinking_model"
支持的规划模型(Thinking Model)
# Anthropic系列
"anthropic/claude-3-5-sonnet-20241022"
"anthropic/claude-3-opus-20240229"
# OpenAI系列
"openai/gpt-5"
"openai/gpt-o3"
"openai/gpt-4o"
# Google系列
"gemini/gemini-1.5-pro"
"vertex_ai/gemini-pro-vision"
# 本地模型(任何Hugging Face视觉语言模型)
"huggingface-local/your-vision-model"
支持的执行模型(Grounding Model)
# OmniParser(OCR专用)
"omniparser"
# GTA1系列(专业点击预测)
"huggingface-local/HelloKKMe/GTA1-7B"
"huggingface/HelloKKMe/GTA1-32B"
"vllm_hosted/HelloKKMe/GTA1-72B"
# UI-TARS(统一模型)
"huggingface-local/ByteDance-Seed/UI-TARS-1.5-7B"
# 全功能模型也可作为执行组件
"claude-3-5-sonnet-20241022"
"openai/computer-use-preview"
组合示例
# GTA1专业点击 + GPT-5强大规划
model="huggingface-local/HelloKKMe/GTA1-7B+openai/gpt-5"
# GTA1 + Claude 3.5 Sonnet(性价比优选)
model="huggingface-local/HelloKKMe/GTA1-7B+anthropic/claude-3-5-sonnet-20241022"
# UI-TARS + GPT-4o(双视觉模型增强)
model="huggingface-local/ByteDance-Seed/UI-TARS-1.5-7B+openai/gpt-4o"
# OmniParser + 本地模型(完全离线方案)
model="omniparser+ollama_chat/mistral-small3.2"
🎯 专业点击预测模型
GTA1系列
专为UI元素定位优化的专业模型,在GUI Agent Grounding Leaderboard上表现优异:
# 7B版本(轻量高效)
model="huggingface-local/HelloKKMe/GTA1-7B"
# 32B版本(更高精度)
model="huggingface/HelloKKMe/GTA1-32B"
# 72B版本(顶级性能)
model="vllm_hosted/HelloKKMe/GTA1-72B"
专业点击预测使用:
agent = ComputerAgent("huggingface-local/HelloKKMe/GTA1-7B", tools=[computer])
# 精准定位UI元素坐标
login_coords = agent.predict_click("定位登录按钮")
search_coords = agent.predict_click("找到搜索输入框")
menu_coords = agent.predict_click("识别汉堡菜单图标")
print(f"登录按钮坐标: {login_coords}")
print(f"搜索框坐标: {search_coords}")
print(f"菜单图标坐标: {menu_coords}")
🏠 本地部署方案
Hugging Face Transformers
# 任何Hugging Face模型
model="huggingface-local/模型名称"
MLX(Apple Silicon优化)
# MLX社区优化版本
model="mlx/mlx-community/模型名称"
Ollama
# Ollama本地模型
model="ollama_chat/模型名称"
📊 模型选择指南
根据任务复杂度选择
flowchart TD
A[任务类型] --> B{简单点击任务}
A --> C{中等复杂度任务}
A --> D{复杂多步任务}
B --> E[专业点击模型<br/>GTA1系列]
C --> F[统一视觉模型<br/>UI-TARS/GLM-4.5V]
D --> G[全功能智能体<br/>Claude/OpenAI CUA]
E --> H[成本: $<br/>精度: ⭐⭐⭐⭐⭐]
F --> I[成本: $$<br/>能力: ⭐⭐⭐⭐]
G --> J[成本: $$$<br/>能力: ⭐⭐⭐⭐⭐]
根据部署环境选择
| 环境需求 | 推荐模型 | 优势 |
|---|---|---|
| 完全离线 | UI-TARS本地版 + Ollama | 零网络依赖,数据安全 |
| 成本敏感 | GTA1+轻量LLM | 专业点击+廉价规划 |
| 高性能 | Claude 4.1系列 | 最强能力,响应最快 |
| 开发测试 | OpenAI CUA预览版 | 快速原型验证 |
根据精度要求选择
pie title 点击预测精度对比
"GTA1-72B" : 35
"GTA1-32B" : 30
"GTA1-7B" : 25
"UI-TARS" : 10
⚙️ 安装配置指南
基础安装
# 全功能安装
pip install "cua-agent[all]"
# 按需安装
pip install "cua-agent[openai]" # OpenAI支持
pip install "cua-agent[anthropic]" # Anthropic支持
pip install "cua-agent[omni]" # OmniParser支持
pip install "cua-agent[uitars]" # UI-TARS支持
pip install "cua-agent[uitars-mlx]" # UI-TARS + MLX支持
pip install "cua-agent[uitars-hf]" # UI-TARS + Huggingface支持
pip install "cua-agent[glm45v-hf]" # GLM-4.5V支持
环境变量配置
# API密钥配置
export ANTHROPIC_API_KEY="your-anthropic-key"
export OPENAI_API_KEY="your-openai-key"
export OPENROUTER_API_KEY="your-openrouter-key"
# 计算机实例配置
export CUA_CONTAINER_NAME="your-container-name"
export CUA_API_KEY="your-cua-api-key"
🎯 最佳实践示例
企业级自动化流程
# 使用Claude 4.1处理复杂业务流程
agent = ComputerAgent(
model="anthropic/claude-opus-4-1-20250805",
tools=[computer],
callbacks=[BudgetManagerCallback(max_budget=50.0)],
trajectory_dir="enterprise_automation"
)
# 自动化财务报销流程
task = """
1. 登录公司管理系统
2. 进入报销申请模块
3. 填写报销信息:交通费200元,餐饮费150元
4. 上传发票附件
5. 提交审批流程
6. 确认提交成功并截图保存
"""
async for result in agent.run(task):
# 监控执行过程并记录
log_trajectory(result)
高精度UI测试自动化
# 使用GTA1专业模型进行精准UI测试
agent = ComputerAgent(
model="huggingface-local/HelloKKMe/GTA1-7B+anthropic/claude-3-5-sonnet-20241022",
tools=[computer]
)
# 精确测试登录流程
test_cases = [
"定位用户名输入框并输入'testuser'",
"定位密码输入框并输入'password123'",
"定位登录按钮并点击",
"验证登录成功后的欢迎页面"
]
for test_case in test_cases:
coords = agent.predict_click(test_case)
execute_click(coords)
validate_result()
🔮 未来模型支持规划
CUA团队持续关注并集成最新的计算机使用模型:
- 多模态模型扩展:支持更多视觉-语言-动作统一模型
- 专业领域优化:针对金融、医疗、制造等垂直领域的专用模型
- 边缘计算优化:超轻量级模型支持移动设备和IoT设备
- 开源生态建设:与更多开源模型社区深度合作
📝 总结
CUA提供了业界最全面的计算机使用模型支持体系,从云端大厂的商业模型到本地部署的开源方案,从全功能自主智能体到专业点击预测模型,满足不同场景、不同预算、不同技术栈的用户需求。
无论你是需要处理复杂业务流程的企业用户,还是进行高精度UI测试的开发者,或是追求成本优化的初创团队,都能在CUA的模型生态中找到合适的解决方案。
立即开始你的计算机使用智能体之旅,选择合适的模型,释放自动化潜能!
登录后查看全文
热门项目推荐
相关项目推荐
GLM-5智谱 AI 正式发布 GLM-5,旨在应对复杂系统工程和长时域智能体任务。Jinja00
GLM-5-w4a8GLM-5-w4a8基于混合专家架构,专为复杂系统工程与长周期智能体任务设计。支持单/多节点部署,适配Atlas 800T A3,采用w4a8量化技术,结合vLLM推理优化,高效平衡性能与精度,助力智能应用开发Jinja00
请把这个活动推给顶尖程序员😎本次活动专为懂行的顶尖程序员量身打造,聚焦AtomGit首发开源模型的实际应用与深度测评,拒绝大众化浅层体验,邀请具备扎实技术功底、开源经验或模型测评能力的顶尖开发者,深度参与模型体验、性能测评,通过发布技术帖子、提交测评报告、上传实践项目成果等形式,挖掘模型核心价值,共建AtomGit开源模型生态,彰显顶尖程序员的技术洞察力与实践能力。00
Kimi-K2.5Kimi K2.5 是一款开源的原生多模态智能体模型,它在 Kimi-K2-Base 的基础上,通过对约 15 万亿混合视觉和文本 tokens 进行持续预训练构建而成。该模型将视觉与语言理解、高级智能体能力、即时模式与思考模式,以及对话式与智能体范式无缝融合。Python00
MiniMax-M2.5MiniMax-M2.5开源模型,经数十万复杂环境强化训练,在代码生成、工具调用、办公自动化等经济价值任务中表现卓越。SWE-Bench Verified得分80.2%,Multi-SWE-Bench达51.3%,BrowseComp获76.3%。推理速度比M2.1快37%,与Claude Opus 4.6相当,每小时仅需0.3-1美元,成本仅为同类模型1/10-1/20,为智能应用开发提供高效经济选择。【此简介由AI生成】Python00
Qwen3.5Qwen3.5 昇腾 vLLM 部署教程。Qwen3.5 是 Qwen 系列最新的旗舰多模态模型,采用 MoE(混合专家)架构,在保持强大模型能力的同时显著降低了推理成本。00- RRing-2.5-1TRing-2.5-1T:全球首个基于混合线性注意力架构的开源万亿参数思考模型。Python00
最新内容推荐
Degrees of Lewdity中文汉化终极指南:零基础玩家必看的完整教程Unity游戏翻译神器:XUnity Auto Translator 完整使用指南PythonWin7终极指南:在Windows 7上轻松安装Python 3.9+终极macOS键盘定制指南:用Karabiner-Elements提升10倍效率Pandas数据分析实战指南:从零基础到数据处理高手 Qwen3-235B-FP8震撼升级:256K上下文+22B激活参数7步搞定机械键盘PCB设计:从零开始打造你的专属键盘终极WeMod专业版解锁指南:3步免费获取完整高级功能DeepSeek-R1-Distill-Qwen-32B技术揭秘:小模型如何实现大模型性能突破音频修复终极指南:让每一段受损声音重获新生
项目优选
收起
deepin linux kernel
C
27
11
OpenHarmony documentation | OpenHarmony开发者文档
Dockerfile
564
3.83 K
本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。
C++
892
659
Ascend Extension for PyTorch
Python
375
443
openEuler内核是openEuler操作系统的核心,既是系统性能与稳定性的基石,也是连接处理器、设备与服务的桥梁。
C
348
198
昇腾LLM分布式训练框架
Python
116
145
暂无简介
Dart
794
197
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
1.36 K
775
openJiuwen agent-studio提供零码、低码可视化开发和工作流编排,模型、知识库、插件等各资源管理能力
TSX
1.12 K
268
React Native鸿蒙化仓库
JavaScript
308
359