PyTorch/XLA项目中MarkShardingFunction导致内存溢出的问题分析

2025-06-30 20:09:50作者：凌朦慧Richard

在PyTorch/XLA项目的实际应用中发现，当使用MarkShardingFunction对模型参数进行分片时，会导致内存溢出(OOM)问题。这个问题特别在使用Mixtral模型时表现明显。

问题现象

当开发者尝试使用MarkShardingFunction.apply方法对模型参数进行分片时，梯度HLO数组会异常地长时间驻留在内存中，最终导致内存不足。相比之下，如果使用xs.mark_sharding方法对模型参数进行分片，则不会出现这个问题。

问题根源

经过分析，问题的根本原因在于MarkShardingFunction的实现方式。原始的MarkShardingFunction是一个原地(in-place)操作，这种实现方式会导致梯度张量在反向传播过程中被不必要地保留在内存中。

解决方案

开发者发现了一个有效的解决方法：将MarkShardingFunction修改为非原地操作。具体实现方式是在forward和backward方法中都使用张量的clone()方法创建副本，而不是直接操作原始张量。

修改后的实现如下：

class MarkShardingFunction(torch.autograd.Function):
    @staticmethod
    def forward(ctx, torch_tensor, mesh, partition_spec):
        o = mark_sharding(torch_tensor.clone(), mesh, partition_spec)
        ctx.partition_spec = partition_spec
        ctx.mesh = mesh
        return o.global_tensor

    @staticmethod
    def backward(ctx, grad_output):
        partition_spec = ctx.partition_spec
        mesh = ctx.mesh
        o = mark_sharding(grad_output.clone(), mesh, partition_spec)
        return o.global_tensor, None, None

技术背景

MarkShardingFunction是PyTorch/XLA中用于指导GSPMD分片传播的一个重要工具。它的主要作用是在前向传播和反向传播过程中对中间张量及其梯度进行分片标记，从而帮助编译器更好地优化分片策略，避免在复杂计算图中引入不必要的集合通信操作而影响性能。

后续发展

这个问题最终通过PyTorch/XLA项目的一个相关PR得到了根本解决，使得原始的MarkShardingFunction实现不再成为必需。这体现了开源社区通过协作不断优化和改进框架功能的典型过程。

经验总结

这个案例为深度学习框架开发者提供了几个重要启示：

内存管理在分布式训练中至关重要，特别是当处理大型模型时
原地操作虽然可以提高效率，但可能带来意外的内存问题
框架级别的自动微分功能需要谨慎处理中间结果的存储和释放
分片策略的实现细节可能对系统整体性能产生重大影响

这个问题及其解决方案对于理解PyTorch/XLA框架的内存管理机制和分片策略实现具有重要的参考价值。

xla

Enabling PyTorch on XLA Devices (e.g. Google TPU)

项目地址：https://gitcode.com/gh_mirrors/xla/xla

登录后查看全文