Verl项目中PPO训练时FusedLinearForPPO功能的内存问题分析

2025-05-31 05:52:26作者：温艾琴Wonderful

Verl是一个基于Ray框架的强化学习训练系统，最近在使用PPO算法训练GSM8K数学数据集时，用户报告了一个关于FusedLinearForPPO功能的运行时内存错误。本文将深入分析该问题的技术背景和解决方案。

问题现象

在训练过程中，系统报出以下关键错误信息：

RuntimeError: setStorage: sizes [896, 151936], strides [1, 896], storage offset 0, and itemsize 2 requiring a storage size of 272269312 are out of bounds for storage of size 0

这个错误发生在计算对数概率(log_prob)的过程中，具体是在执行矩阵乘法操作时，系统检测到词汇表权重(vocab_weights)的存储空间分配出现了问题。

技术背景

FusedLinearForPPO是Verl项目中实现的一个优化功能，它将多个线性操作融合在一起执行，旨在提高PPO算法中策略网络前向传播的效率。该功能主要包含以下组件：

融合的线性变换计算
温度参数调节
对数概率计算
熵值计算

在实现上，它使用了PyTorch的自定义自动求导函数(Function)机制，通过重写forward和backward方法来实现高效的计算。

问题根源分析

根据错误信息和代码上下文，我们可以确定问题出在以下方面：

张量存储分配失败：系统尝试分配一个大小为272MB的张量存储空间，但底层存储分配失败，返回了大小为0的存储空间。
词汇表权重未正确加载：错误发生在词汇权重矩阵的转置操作(.t())之前，表明可能在分布式环境下的权重收集(all_gather)操作没有正确完成。
内存管理问题：考虑到用户使用的是A800-80G显卡且之前能正常运行，可能是某些内存管理机制发生了变化，导致大张量分配失败。

解决方案

目前有两种可行的解决方案：

临时解决方案：在配置中设置actor_rollout_ref.model.use_fused_kernels=False，禁用融合内核功能，回退到标准的线性计算方式。
根本解决方案：需要检查FusedLinearForPPO实现中的以下方面：
- 确保词汇权重在分布式环境下正确同步
- 验证大张量内存分配的边界条件
- 添加更完善的错误处理和内存检查机制