强化学习可视化实战：用easy-rl分析训练曲线与性能瓶颈

2026-02-04 04:04:14作者：裴麒琰

你是否还在为强化学习模型训练时的波动曲线困惑？是否想知道如何快速判断算法是否收敛？本文将带你掌握easy-rl项目中内置的可视化工具，通过实战案例学会训练曲线分析、超参数调优和性能诊断，让你的强化学习模型训练过程一目了然。

读完本文你将获得：

3种核心可视化工具的使用方法
训练曲线波动的5个关键诊断指标
基于滑动平均的收敛判定技巧
悬崖寻路问题的性能优化实战经验

强化学习可视化的核心价值

在强化学习（Reinforcement Learning, RL）训练过程中，智能体与环境的交互会产生大量数据，而可视化正是理解这些数据的窗口。如图3.16所示，通过状态价值的动态变化，我们可以直观看到智能体如何从随机探索逐步学会最优策略。

图 3.16 时序差分学习网格世界演示 | 来源：[docs/chapter3/chapter3.md](https://gitcode.com/gh_mirrors/ea/easy-rl/blob/fc4ece6ee54966f7f293f5b071a61a47dda4cb30/docs/chapter3/chapter3.md?utm_source=gitcode_repo_files)

easy-rl项目（蘑菇书🍄）提供了完整的可视化工具链，主要分为三大类：

训练过程记录：奖励值（Reward）、步数（Steps）等关键指标的实时追踪
性能分析工具：滑动平均曲线、误差范围计算、收敛判定
策略可视化：Q表格热图、状态价值分布、动作选择概率

这些工具集中分布在项目的docs/assets目录和notebooks示例中，通过结合Matplotlib和Seaborn实现数据可视化，帮助开发者快速定位训练问题。

训练曲线的录制与绘制

基础训练框架实现

在easy-rl中，所有强化学习算法都遵循统一的训练接口。以经典的悬崖寻路问题（CliffWalking-v0）为例，核心训练循环如下：

'''初始化环境'''  
env = gym.make("CliffWalking-v0")  # 0 up, 1 right, 2 down, 3 left
env = CliffWalkingWapper(env)
agent = QLearning(
    state_dim=env.observation_space.n,
    action_dim=env.action_space.n,
    learning_rate=cfg.policy_lr,
    gamma=cfg.gamma,)
rewards = []  
ma_rewards = [] # moving average reward
for i_ep in range(cfg.train_eps): # train_eps: 训练的最大episodes数
    ep_reward = 0  # 记录每个episode的reward
    state = env.reset()  # 重置环境, 重新开一局（即开始新的一个episode）
    while True:
        action = agent.choose_action(state)  # 根据算法选择一个动作
        next_state, reward, done, _ = env.step(action)  # 与环境进行一次动作交互
        agent.update(state, action, reward, next_state, done)  # Q-learning算法更新
        state = next_state  # 存储上一个观察值
        ep_reward += reward
        if done:
            break
    rewards.append(ep_reward)
    # 计算滑动平均奖励
    if ma_rewards:
        ma_rewards.append(ma_rewards[-1]*0.9+ep_reward*0.1)
    else:
        ma_rewards.append(ep_reward)
    print("Episode:{}/{}: reward:{:.1f}".format(i_ep+1, cfg.train_eps, ep_reward))

这段代码实现了完整的训练过程录制，关键在于维护了两个列表：

rewards：存储每个回合的原始奖励值
ma_rewards：通过指数移动平均（EMA）计算的平滑奖励曲线，其中0.9和0.1的权重比例在实践中被证明能有效平衡平滑度和响应速度

原始奖励曲线分析

悬崖寻路问题的原始奖励曲线如图所示，我们可以看到明显的波动特性。这是因为强化学习智能体在探索过程中会不断尝试新的动作，导致奖励值出现剧烈起伏。

图：原始奖励曲线 | 来源：[docs/chapter3/project1.md](https://gitcode.com/gh_mirrors/ea/easy-rl/blob/fc4ece6ee54966f7f293f5b071a61a47dda4cb30/docs/chapter3/project1.md?utm_source=gitcode_repo_files)

从原始曲线中我们可以观察到：

初始阶段（0-50回合）：奖励值波动极大，智能体主要在进行随机探索
过渡阶段（50-200回合）：奖励值逐渐上升并开始稳定，智能体逐渐学会避开悬崖
稳定阶段（200回合后）：奖励值围绕-13左右波动，接近理论最优值

但原始曲线的剧烈波动使得我们难以准确判断算法是否真正收敛，这时候就需要引入滑动平均技术。

滑动平均与收敛判定

滑动平均曲线绘制

easy-rl项目中采用的指数移动平均（Exponential Moving Average, EMA）方法，通过对历史奖励值进行加权平均，有效平滑了短期波动，突出了长期趋势。实现代码如下：

if ma_rewards:
    ma_rewards.append(ma_rewards[-1]*0.9+ep_reward*0.1)
else:
    ma_rewards.append(ep_reward)

应用滑动平均后，悬崖寻路问题的奖励曲线变得更加平滑，我们可以清晰地看到学习过程的三个阶段：快速上升期、平台期和稳定期。

图：滑动平均奖励曲线 | 来源：[docs/chapter3/project1.md](https://gitcode.com/gh_mirrors/ea/easy-rl/blob/fc4ece6ee54966f7f293f5b071a61a47dda4cb30/docs/chapter3/project1.md?utm_source=gitcode_repo_files)

收敛判定的量化指标

在easy-rl中，通常使用以下指标判断训练是否收敛：

连续30回合滑动平均奖励波动范围：当波动小于±1时，可认为基本收敛
平均奖励值与理论最优值的差距：悬崖寻路问题中，当滑动平均奖励稳定在-13±0.5范围内时，达到最优
每回合步数变异系数：当步数变异系数（标准差/均值）小于0.1时，表明策略已稳定

这些指标的计算可以通过notebooks中的工具函数实现，帮助开发者客观评估训练效果，避免主观判断带来的偏差。

性能瓶颈诊断与优化

超参数对训练曲线的影响

ε-贪心策略中的探索率ε是影响训练曲线的关键超参数之一。在easy-rl的实现中，ε通常从0.9开始，随着训练进行逐渐衰减至0.1。不同的衰减速率会导致截然不同的学习曲线：

衰减过快：可能导致智能体过早陷入局部最优，如图3.28中的Q学习算法如果ε衰减过快，会在悬崖边缘区域出现策略僵化
衰减过慢：会延长探索时间，导致收敛速度变慢

图：不同ε值下的Q学习更新过程 | 来源：[docs/chapter3/chapter3.md](https://gitcode.com/gh_mirrors/ea/easy-rl/blob/fc4ece6ee54966f7f293f5b071a61a47dda4cb30/docs/chapter3/chapter3.md?utm_source=gitcode_repo_files)

常见性能问题及解决方案

通过分析训练曲线，我们可以诊断出多种性能问题：

问题表现	可能原因	解决方案
曲线持续波动不收敛	ε值过高或衰减过慢	调整ε衰减策略，如ε=0.9→0.1的衰减步数从500减少到300
奖励值停留在局部最优	探索不足	增加经验回放池容量，或引入优先经验回放（PER）
训练后期性能突然下降	过拟合	增加策略正则化，如在Q表格更新中加入L2惩罚项

在悬崖寻路问题中，最常见的问题是智能体在悬崖边缘徘徊导致奖励值波动。通过分析Q表格的可视化结果（如图3.11所示），我们可以发现智能体在靠近悬崖的状态下，动作选择存在不确定性，这时候可以通过调整学习率α（如从0.1降低到0.05）来增强策略稳定性。

图：Q表格可视化 | 来源：[docs/chapter3/chapter3.md](https://gitcode.com/gh_mirrors/ea/easy-rl/blob/fc4ece6ee54966f7f293f5b071a61a47dda4cb30/docs/chapter3/chapter3.md?utm_source=gitcode_repo_files)

高级可视化工具与实践技巧

Q表格热图可视化

Q表格是表格型强化学习算法的核心数据结构，通过将其可视化为热图，我们可以直观看到智能体对不同状态-动作对的价值评估。在悬崖寻路问题中，Q表格热图能清晰展示智能体如何学会避开悬崖区域。

easy-rl项目中提供了Q表格可视化的示例代码，主要使用Matplotlib的imshow函数实现：

import matplotlib.pyplot as plt
import seaborn as sns

# 假设Q表格为agent.q_table
plt.figure(figsize=(12, 4))
sns.heatmap(agent.q_table, cmap="YlGnBu")
plt.xlabel("Action")
plt.ylabel("State")
plt.title("Q-Table Heatmap")
plt.show()

状态价值分布可视化

状态价值函数V(s)的可视化能帮助我们理解智能体对环境状态的评估。如图3.23所示，通过价值迭代过程的动态可视化，我们可以看到价值如何从终点状态逐渐扩散到整个状态空间。

图：策略迭代过程中的状态价值变化 | 来源：[docs/chapter3/chapter3.md](https://gitcode.com/gh_mirrors/ea/easy-rl/blob/fc4ece6ee54966f7f293f5b071a61a47dda4cb30/docs/chapter3/chapter3.md?utm_source=gitcode_repo_files)

在实际应用中，我们可以通过以下步骤创建状态价值的动态可视化：