PEFT项目中GPT2模型使用PiSSA初始化时的维度匹配问题解析

2025-05-12 22:39:56作者：房伟宁

在PEFT（Parameter-Efficient Fine-Tuning）项目的最新版本中，用户在使用LoRA（Low-Rank Adaptation）技术对GPT2模型进行微调时，发现当采用PiSSA（Power Iteration Sparse Singular Approximation）初始化方法时会出现维度不匹配的问题。本文将深入分析这一技术问题的根源及其解决方案。

问题背景

PiSSA是一种高效的参数初始化方法，它通过对权重矩阵进行奇异值分解（SVD）来获得低秩近似，从而提升模型微调的效率。然而，在PEFT 0.13.0版本中，当用户尝试对GPT2模型使用PiSSA初始化时，系统会抛出维度不匹配的错误。

技术分析

问题的核心在于PiSSA初始化代码没有正确处理fan_in_fan_out参数。这个参数在GPT2等Transformer架构中尤为重要，因为它决定了权重矩阵是否需要转置：

权重矩阵方向性：在GPT2模型中，某些层的权重矩阵需要转置才能正确计算前向传播
PiSSA实现缺陷：原始代码在进行SVD分解前没有考虑矩阵是否需要转置
数据类型处理：PiSSA需要浮点精度计算，但未正确处理不同精度间的转换

解决方案

通过修改PiSSA初始化流程，我们增加了矩阵转置处理步骤：

前处理阶段：根据fan_in_fan_out参数决定是否转置权重矩阵
核心计算：在浮点32精度下进行SVD分解
后处理阶段：将结果转回原始方向并恢复原始数据类型

关键改进点包括：

显式处理矩阵转置操作
确保计算在适当精度下进行
正确处理残差连接

实现细节

修改后的PiSSA初始化流程更加健壮：

# 前处理：根据fan_in_fan_out决定是否转置
weight = transpose(weight.to(torch.float32), self.fan_in_fan_out)

# 核心SVD计算
V, S, Uh = torch.linalg.svd(weight.data, full_matrices=False)

# 后处理：恢复原始方向和数据类型
weight = transpose(weight.to(dtype), self.fan_in_fan_out)