OM1项目配置详解：构建智能代理的核心指南

2025-06-26 09:55:14作者：郁楠烈Hubert

前言

在人工智能领域，智能代理(Agent)的配置是实现其功能的基础。OM1项目作为一个先进的智能代理框架，通过JSON5配置文件来定义代理的各个方面。本文将深入解析OM1项目的配置系统，帮助开发者快速掌握构建智能代理的核心技能。

配置文件基础结构

OM1的配置文件采用JSON5格式，这是一种比标准JSON更灵活的格式，支持注释、尾随逗号等特性。配置文件位于项目的/config目录下，主要包含以下几个核心部分：

{
  "hertz": 0.5,
  "name": "agent_name",
  "api_key": "openmind_free",
  "URID": "default",
  "system_prompt_base": "...",
  "system_governance": "...",
  "system_prompt_examples": "...",
  "agent_inputs": [...],
  "cortex_llm": {...},
  "simulators": [...],
  "agent_actions": [...]
}

核心配置参数详解

1. 基础参数配置

hertz：定义了代理的基础运行频率（单位：Hz），即每秒执行的次数。这个参数可以被事件触发机制覆盖，使代理能够快速响应环境变化。

name：代理的唯一标识符，建议使用有意义的名称，如"HomeAssistantBot"或"WarehouseRobot"。

api_key：访问OM1服务的认证密钥，确保代理的合法性和安全性。

URID：通用机器人标识符，用于加入去中心化的机器间协调通信系统(FABRIC)。

2. 系统提示配置

system_prompt_base：定义代理的核心个性和行为模式，相当于代理的"性格"设定。

system_governance：设定代理的决策规则和边界，确保其行为符合预期。

system_prompt_examples：提供示例对话或行为模式，帮助代理理解预期交互方式。

输入系统配置(agent_inputs)

输入系统定义了代理如何感知环境。OM1支持多种输入类型：

"agent_inputs": [
  {
    "type": "GovernanceBlockchain"
  },
  {
    "type": "VLM_COCO_Local",
    "config": {
      "camera_index": 0
    }
  }
]

常见输入类型包括：

视觉输入：如VLM_COCO_Local（本地摄像头）、VLMVila（视觉语言模型）
听觉输入：如GoogleASRInput（语音识别）
传感器输入：如RPLidar（激光雷达）、UnitreeGo2Lowstate（机器人状态）
区块链输入：如GovernanceBlockchain（区块链治理信息）

每种输入类型都有特定的配置参数，例如摄像头输入需要指定camera_index。

大语言模型配置(cortex_llm)

cortex_llm部分配置代理使用的核心语言模型：

"cortex_llm": {
  "type": "OpenAILLM",
  "config": {
    "base_url": "https://api.openai.com/v1",
    "agent_name": "Iris",
    "history_length": 10
  }
}

关键参数说明：

type：指定LLM插件类型，如OpenAILLM
base_url：可自定义API端点，支持多种兼容OpenAI API的服务
history_length：控制对话历史记忆长度，影响上下文理解能力

OM1支持多种LLM服务，只需提供相应的API端点即可切换不同供应商的服务。

模拟环境配置(simulators)

模拟器配置定义了代理运行的虚拟环境：

"simulators": [
  {
    "type": "WebSim",
    "config": {
      "host": "0.0.0.0",
      "port": 8000,
      "tick_rate": 100,
      "auto_reconnect": true,
      "debug_mode": false
    }
  }
]

WebSim模拟器常见配置包括：

host/port：定义服务监听地址
tick_rate：模拟器更新频率
auto_reconnect：是否自动重连
debug_mode：调试模式开关

动作系统配置(agent_actions)

动作系统定义了代理能执行的操作：

"agent_actions": [
  {
    "name": "move",
    "llm_label": "move",
    "implementation": "passthrough",
    "connector": "ros2"
  },
  {
    "name": "speak",
    "llm_label": "speak",
    "implementation": "passthrough",
    "connector": "ros2"
  }
]