PyTorch Lightning中Transformer编码器的混合精度训练问题解析

2025-05-05 11:28:02作者：龚格成

问题背景

在使用PyTorch Lightning进行深度学习模型训练时，混合精度训练是一种常见的优化手段，可以显著减少显存占用并提高训练速度。然而，当模型包含Transformer编码器结构时，在bf16-mixed精度模式下可能会遇到类型不匹配的错误。

当使用PyTorch Lightning的Trainer进行混合精度训练时，如果模型包含nn.TransformerEncoder结构，在验证阶段会出现如下错误：

RuntimeError: mat1 and mat2 must have the same dtype, but got BFloat16 and Float

这表明在计算过程中，矩阵乘法的两个输入张量具有不同的数据类型，一个是BFloat16，另一个是Float32。

经过深入分析，这个问题实际上与PyTorch Lightning无关，而是PyTorch本身的Transformer实现在不同模式下的行为差异导致的。具体表现为：

训练模式与评估模式的差异：Transformer编码器在训练模式(.train())和评估模式(.eval())下对输入类型的处理方式不同
混合精度上下文的影响：在autocast上下文管理器中，PyTorch会自动将输入转换为指定的精度类型(如BFloat16)，但Transformer内部某些操作可能没有正确处理这种类型转换
权重与输入类型不匹配：在某些情况下，Transformer的权重可能保持为Float32，而输入被转换为BFloat16，导致矩阵乘法时类型不匹配

针对这个问题，有以下几种可行的解决方案：

使用纯BFloat16模式：将precision参数设置为bf16-true而非bf16-mixed，强制所有计算都使用BFloat16精度
手动类型转换：在Transformer编码器前添加显式的类型转换层，确保输入类型与权重类型一致
修改Transformer实现：自定义Transformer层，确保在评估模式下也能正确处理混合精度输入
使用Float32精度：如果性能不是首要考虑因素，可以完全使用Float32精度进行训练