Cradle项目中GPT-4V多模态提示工程的技术实现解析

2025-07-04 00:33:28作者：谭伦延

The Cradle framework is a first attempt at General Computer Control (GCC). Cradle supports agents to ace any computer task by enabling strong reasoning abilities, self-improvment, and skill curation, in a standardized general environment with minimal requirements.

项目地址：https://gitcode.com/GitHub_Trending/cradle/Cradle

在BAAI-Agents团队开发的Cradle项目中，其核心创新点之一是通过GPT-4V多模态模型实现游戏环境下的智能决策。本文将从技术实现角度，深入剖析其提示工程（Prompt Engineering）的设计架构。

多模态消息的分层架构

Cradle采用四层结构化消息设计，这种设计充分考虑了多模态输入的特性：

系统指令层
作为基础角色设定，包含GPT-4V在游戏中的角色定位、当前游戏场景等元信息。这部分内容通过system message传递，为模型建立基础认知框架。
任务描述层
以user message形式传递当前任务的目标定义和文字描述。值得注意的是，该部分内容被设计为纯文本形式，避免与后续视觉信息产生指令冲突。
多模态示例层
这是最具创新性的设计模块，整合了以下关键要素：
- 少量示例（Few-shot Learning）
- 游戏截图等视觉输入
- 对应的操作指令技术实现上通过特殊标记（IMAGES_INPUT_TAG）进行识别，在代码中体现为对image_introduction字段的解析。
即时指令层
包含具体的环境观察数据、历史决策记录以及输出格式约束，作为最终的用户指令触发模型响应。

关键技术细节解析

在源码实现层面，项目团队采用了动态段落处理机制：

for i, paragraph in enumerate(filtered_paragraphs):
    if constants.IMAGES_INPUT_TAG in paragraph:
        image_introduction_paragraph_index = i
        break

这段代码展示了如何通过标记识别来定位多模态内容段落。值得注意的是，当前版本将few-shot示例直接整合到image_introduction字段中，而非使用单独的few_shots字段，这种设计简化了消息组装逻辑。