TorchRL中LSTM模块的TensorDictPrimer问题分析与解决

2025-06-29 16:20:30作者：滑思眉Philip

pytorch/rl - 这是一个基于 PyTorch 的开源机器学习库，专注于强化学习领域的研究和技术开发。适用于深度学习、机器学习、人工智能等领域的开发和研究。

项目地址：https://gitcode.com/gh_mirrors/rl/rl

问题背景

在强化学习框架TorchRL中，使用LSTM模块时经常会遇到一个关于make_tensordict_primer函数的兼容性问题。这个问题主要出现在处理批量环境(batch-locked environments)时，特别是当环境是向量化环境且批量大小大于1时。

问题现象

当开发者尝试在批量环境中使用LSTMModule的make_tensordict_primer方法创建TensorDictPrimer转换时，会遇到维度错误。具体表现为：

在向量化环境中(如64个并行环境，16步rollout)添加该转换后
执行数据收集时抛出IndexError: Dimension out of range错误
错误指向LSTM内部处理隐藏状态时的维度转置操作

技术分析

根本原因

make_tensordict_primer方法的默认实现没有考虑批量环境的特殊情况。其创建的TensorDictPrimer转换中的张量规格(Spec)形状为(num_layers, hidden_size)，而实际在批量环境中需要的形状应该是(batch_size, num_layers, hidden_size)。

影响范围

这个问题主要影响以下场景：

使用向量化环境(如ParallelEnv)的情况
自定义批量环境(如基于Isaac Gym的环境)
任何批量大小大于1的环境配置

解决方案

临时解决方案

对于TorchRL 0.4版本，开发者可以手动创建TensorDictPrimer并指定正确的形状：

primer = TensorDictPrimer(
    {
        "rs_h": UnboundedContinuousTensorSpec(
            shape=(batch_size, lstm.num_layers, lstm.hidden_size)
        ),
        "rs_c": UnboundedContinuousTensorSpec(
            shape=(batch_size, lstm.num_layers, lstm.hidden_size)
        ),
    }
)