TorchTitan项目中LoRA微调权重爆炸问题的分析与解决

2025-06-20 06:25:38作者：裴麒琰

问题背景

在TorchTitan项目中进行LoRA（Low-Rank Adaptation）微调时，开发者遇到了权重爆炸的问题。具体表现为在FSDP（Fully Sharded Data Parallel）训练过程中，LoRA适配器的权重参数（特别是LoRA-A矩阵）数值呈现指数级增长，最终导致训练不稳定。

技术细节分析

LoRA微调原理

LoRA是一种高效的大模型微调技术，它通过在预训练模型的线性层旁路添加低秩适配器（通常由两个矩阵A和B组成）来实现微调。其中：

矩阵A采用随机初始化
矩阵B初始化为零矩阵
原始模型权重保持冻结

问题现象

在TorchTitan的Llama3-8B模型上实施LoRA微调时，观察到了以下异常现象：

LoRA-A矩阵的权重值在训练过程中迅速膨胀
即使正确加载了预训练权重，初始损失值异常高（约11.79）
当使用meta设备初始化模型时，LoRA-B矩阵保持为零值

根本原因

经过深入分析，发现问题源于多个技术环节：

权重加载不正确：直接从HuggingFace检查点加载权重时，存在模型定义不匹配问题，特别是权重排列顺序的差异。
设备管理不当：在CPU和GPU之间频繁转移大模型权重，导致内存管理混乱。
初始化流程问题：TorchTitan的初始化机制会调用两次init_weights函数，第一次在meta设备上初始化，第二次在实际设备上分配存储空间。
FSDP与LoRA集成问题：在分布式训练环境下，LoRA适配器的梯度计算和权重更新需要特殊处理。

解决方案

正确的权重加载方法

使用状态字典转换：建立HuggingFace模型参数名与TorchTitan模型参数名的映射关系。
分布式张量处理：利用FSDP的分布式张量功能，将完整权重分片加载到各GPU。
设备管理优化：
- 先在meta设备上初始化模型
- 然后转移到目标设备
- 最后加载分片权重

关键代码实现

def load_from_full_model_state_dict(model, full_sd, device):
    # 参数名映射
    param_mapping = {
        'model.embed_tokens.weight': 'tok_embeddings.weight',
        # 其他层映射...
    }
    
    meta_sharded_sd = model.state_dict()
    sharded_sd = {}
    
    for hf_name, full_tensor in full_sd.named_parameters():
        local_name = param_mapping[hf_name]
        sharded_meta_param = meta_sharded_sd.get(local_name)
        
        # 转换并分发张量
        full_tensor = full_tensor.to(sharded_meta_param.dtype).to(device)
        sharded_tensor = distribute_tensor(
            full_tensor,
            sharded_meta_param.device_mesh,
            sharded_meta_param.placements,
        )
        sharded_sd[local_name] = nn.Parameter(sharded_tensor)
    
    return model.load_state_dict(sharded_sd, strict=False, assign=True)