Liger-Kernel与FSDP1结合使用时的GPU内存分配问题分析

2025-06-10 16:06:40作者：齐添朝

问题背景

在使用Liger-Kernel和FSDP1（Fully Sharded Data Parallel）对Llama3.1-8B模型进行微调时，开发者发现了一个有趣的内存分配现象：当使用元设备（meta device）初始化模型时，不同GPU之间的内存使用量出现了显著差异，特别是GPU 0的内存使用量明显小于其他GPU。

现象描述

在采用元设备初始化的场景下，代码实现如下：

# 仅GPU 0会实际初始化参数
if torch.distributed.get_rank() == 0:
    model = AutoModelForCausalLM.from_pretrained(args.model_name_or_path, config=config)
else:
    with torch.device('meta'):
        model = AutoModelForCausalLM.from_config(config)

model = fsdp(
    model, 
    param_init_fn=module.to_empty(device=torch.device("cuda"), recurse=False) 
    if not torch.distributed.get_rank() else None
)

此时观察到GPU 0的内存使用量明显小于其他GPU。通过CUDA内存快照分析发现，FSDP的初始化过程消耗了比预期更多的内存。

问题根源

经过分析，这个问题源于FSDP的默认配置行为。在FSDP的初始化过程中，如果没有显式设置sync_module_states=True参数，FSDP不会同步各GPU间的模块状态。此外，当使用元设备初始化时，如果没有指定目标设备ID，FSDP可能无法正确地将模块移动到适当的CUDA设备上。

解决方案

要解决这个问题，需要在FSDP初始化时添加两个关键参数：

sync_module_states=True：确保所有GPU上的模块状态同步
device_id=torch.cuda.current_device()：明确指定目标CUDA设备

修改后的代码如下：

model = fsdp(
    model,
    sync_module_states=True,
    device_id=torch.cuda.current_device(),
    param_init_fn=module.to_empty(device=torch.device("cuda"), recurse=False) 
    if not torch.distributed.get_rank() else None
)

技术原理

sync_module_states参数：这个参数控制FSDP是否在初始化时同步所有进程中的模块状态。当设置为True时，FSDP会确保所有GPU上的模型参数和缓冲区保持一致，这对于使用元设备初始化的场景尤为重要。
device_id参数：这个参数指定了FSDP应该将模块移动到的目标CUDA设备。在分布式训练环境中，明确指定设备ID可以避免设备分配的不确定性。