UI-TARS项目中动作历史传递机制的技术解析

2025-06-09 14:16:09作者：董宙帆

项目地址：https://gitcode.com/GitHub_Trending/ui/UI-TARS

背景概述

UI-TARS是一个由字节跳动开发的智能UI交互系统，其核心模型能够理解任务指令并根据历史交互记录进行决策。在项目文档中提到，模型输入包括任务指令、历史交互序列(观察o和动作a)以及当前观察oi。然而，许多开发者在实际应用中发现，官方示例提示中并未明确展示如何将历史动作和观察传递给模型。

技术实现原理

UI-TARS模型采用了基于Transformer的多模态架构，能够同时处理文本指令和视觉输入。对于历史交互的处理，系统采用以下技术方案：

上下文窗口管理：系统会维护一个固定长度的历史交互缓冲区，通常保留最近5次交互记录(受限于模型上下文长度)
多模态输入整合：历史记录以文本形式保存动作序列，而视觉观察则选择性保留。在实际实现中，为节省token消耗，通常会丢弃历史图像而仅保留文本描述
渐进式任务分解：模型通过分析历史步骤来理解当前任务进度，并据此规划下一步操作

实际应用建议

根据项目维护者的建议和示例代码，开发者可以按照以下方式实现历史传递：

文本历史记录：将之前的动作序列以纯文本形式追加到当前提示中
视觉信息处理：仅保留当前屏幕截图，历史视觉信息可选择性丢弃或用文本描述替代
上下文长度优化：采用滑动窗口机制，只保留最近几次关键交互记录

性能优化技巧

对于在AndroidWorld等环境中性能不佳的情况，可以考虑：

提示工程优化：调整历史记录的表述方式，使其更加简洁明确
关键帧选择：不是保留所有历史截图，而是识别并保留关键操作节点的屏幕状态
记忆压缩：对历史动作进行概括性描述而非完整记录

实现示例

参考项目中的测试消息示例，一个典型的多轮交互提示应包含：

{
  "instruction": "完成X任务",
  "history": [
    {"observation": "看到了Y界面", "action": "点击了Z按钮"},
    {"observation": "进入了W页面", "action": "输入了文本T"}
  ],
  "current_observation": "当前屏幕截图(base64编码)"
}

这种结构允许模型理解任务上下文，同时避免过长的提示消耗过多计算资源。