MAgent多智能体强化学习环境入门指南

2026-02-04 05:21:11作者：何举烈Damon

前言

MAgent是一个专为多智能体强化学习设计的高性能网格世界环境。本文将详细介绍MAgent的核心概念、环境配置以及基本使用方法，帮助初学者快速上手这一强大的多智能体研究工具。

环境基础

MAgent的核心是一个可扩展的网格世界，在这个世界中可以放置智能体和障碍物。网格世界的设计具有以下特点：

可扩展性：支持大规模智能体交互
灵活性：可自定义网格大小和布局
高效性：优化过的底层实现支持数千智能体同时运行

智能体系统

MAgent中的智能体以组为单位进行管理，同一组内的智能体共享相同的属性和控制方式。

智能体属性配置

智能体属性可以通过register_agent_type函数进行注册，典型属性包括：

predator = register_agent_type(
    "predator",
    {
        'width': 2,         # 智能体宽度(网格单位)
        'length': 2,        # 智能体长度(网格单位) 
        'hp': 1,            # 生命值
        'speed': 1,         # 移动速度
        'view_range': CircleRange(5),    # 视野范围(圆形)
        'attack_range': CircleRange(2), # 攻击范围
        'attack_penalty': -0.2          # 攻击惩罚值
    })

智能体属性配置支持多种参数，开发者可以根据实验需求灵活调整。

观测空间设计

MAgent的观测空间由两部分组成，设计精巧且富有层次：

1. 空间局部视图

采用多通道矩形设计，包含以下信息层：

墙壁层：二进制指示是否存在墙壁
组别层：指示特定组别的智能体存在情况
HP层：归一化的生命值(0-1范围)
小地图层：提供模糊的全局信息

视野范围由注册时的view_range参数决定。例如半径为5时，单个通道大小为11×11(5×2+1)。

2. 非空间特征

包含以下重要信息：

ID嵌入：智能体唯一ID的二进制表示
上一动作
上一奖励
归一化位置

完整的观测数据是一个形状为(n_agents, view_width, view_height, n_channel)的数组。

动作系统

MAgent采用离散动作空间，支持三种基本动作类型：

移动动作：在指定范围内移动
攻击动作：对范围内的目标发起攻击
转向动作：改变智能体朝向

动作范围同样采用圆形区域设计(适配网格)。例如一个配置了13个移动方向、8个攻击方向和2个转向动作的智能体，共有23个有效动作。

奖励机制

MAgent提供两种奖励设置方式：

1. 基于事件的奖励

通过布尔表达式定义复杂奖励规则，例如：

# 定义智能体符号
a = AgentSymbol(tiger_group, index='any')
b = AgentSymbol(tiger_group, index='any')
c = AgentSymbol(deer_group,  index='any')

# 设置奖励规则：两只老虎同时攻击一只鹿时获得奖励
e1 = Event(a, 'attack', c)
e2 = Event(b, 'attack', c)
config.add_reward_rule(e1 & e2, receiver=[a, b], value=[1, 1])

2. 基于代码逻辑的奖励

开发者可以直接在Python控制逻辑中实现自定义奖励规则。

游戏循环与并行模型

MAgent支持高效的并行处理，典型游戏循环如下：

handles = env.get_handles()
while not done:
    # 并行获取各组的观测和ID
    for i in range(n):
        obs[i] = env.get_observation(handles[i])
        ids[i] = env.get_agent_id(handles[i])
        models[i].infer_action(obs[i], ids[i], block=False)  # 非阻塞推理
    
    # 设置动作并执行环境步进
    for i in range(n):
        acts[i] = models[i].fetch_action()
        env.set_action(handles[i], acts[i])
    
    done = env.step()

模型训练同样支持并行：

# 并行训练多个模型
for i in range(n):
    models[i].train(print_every=1000, block=False)
for i in range(n):
    total_loss[i], value[i] = models[i].fetch_train()

通过简单修改，模型甚至可以部署到不同机器上运行。

运行第一个演示

按照以下步骤运行内置的捕食者-猎物演示：

设置Python路径：

export PYTHONPATH=$(pwd)/python:$PYTHONPATH

运行演示脚本：

python examples/api_demo.py

在这个环境中，捕食者( predators )通过合作追捕猎物( preys )获得奖励。演示使用了深度Q网络(DQN)进行训练，展示了智能体如何通过学习发展出协作行为。

可视化工具

MAgent提供了强大的可视化工具：

进入渲染目录
执行渲染程序
在浏览器中打开index.html
输入配置文件和地图文件
使用快捷键控制视图：
- 方向键：移动视窗
- '<'和'>'：缩放
- 's'：调整速度和进度
- 'e'：重新输入配置文件

将军-士兵游戏

MAgent还提供了一个互动性更强的演示：

pip install pygame
python examples/show_battle_game.py

在这个游戏中，玩家扮演将军，有10次机会在地图上部署士兵。部署完成后，士兵会根据训练好的DQN策略自主行动。游戏目标是找到最佳部署位置，消灭敌方单位。

后续学习建议

掌握了基础用法后，可以：

尝试修改智能体属性，观察行为变化
设计自定义奖励规则
实现更复杂的多智能体协作策略
探索大规模智能体场景下的性能优化

MAgent为多智能体研究提供了丰富的可能性，期待你能利用这个强大的工具探索出有趣的研究成果！

MAgent

A Platform for Many-Agent Reinforcement Learning

项目地址：https://gitcode.com/gh_mirrors/ma/MAgent

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

AscendNPU-IR是基于MLIR（Multi-Level Intermediate Representation）构建的，面向昇腾亲和算子编译时使用的中间表示，提供昇腾完备表达能力，通过编译优化提升昇腾AI处理器计算效率，支持通过生态框架使能昇腾AI处理器与深度调优

C++

161

MAgent多智能体强化学习环境入门指南

前言

环境基础

智能体系统

智能体属性配置

观测空间设计

1. 空间局部视图

2. 非空间特征

动作系统

奖励机制

1. 基于事件的奖励

2. 基于代码逻辑的奖励

游戏循环与并行模型

运行第一个演示

可视化工具

将军-士兵游戏

后续学习建议

热门内容推荐

最新内容推荐

项目优选

MAgent多智能体强化学习环境入门指南

前言

环境基础

智能体系统

智能体属性配置

观测空间设计

1. 空间局部视图

2. 非空间特征

动作系统

奖励机制

1. 基于事件的奖励

2. 基于代码逻辑的奖励

游戏循环与并行模型

运行第一个演示

可视化工具

将军-士兵游戏

后续学习建议

相关内容推荐

热门内容推荐

最新内容推荐

项目优选