OpenBMB/OmniLMM项目中LoRA微调模型的推理差异分析

2025-05-11 17:14:08作者：卓炯娓

在OpenBMB/OmniLMM项目的大模型微调实践中，研究人员发现使用LoRA（Low-Rank Adaptation）技术微调后，采用不同推理方式会得到不一致的结果。本文将深入分析这一现象的技术原理和解决方案。

问题现象

当完成LoRA微调后，开发者通常会尝试两种推理方式：

实验发现这两种方式会产生不同的输出结果，这引起了开发者的困惑。

经过深入研究，发现问题主要来源于两个关键因素：

采样参数的设置：当需要比较合并模型和挂载LoRA模型的输出时，必须设置do_sample=false参数。这是因为采样过程会引入随机性，导致输出不一致。
模型精度的选择：更深入的分析表明，模型合并时的精度选择对结果有重大影响：
- 对于挂载LoRA的方式，使用bf16或fp16精度进行推理都能得到正确结果
- 对于合并模型的方式：
  - 如果用bf16保存合并模型，无论用bf16还是fp16推理都会产生错误结果
  - 如果用fp16保存合并模型，但用bf16推理也会出错
  - 只有用fp16保存合并模型并用fp16推理，才能得到与挂载LoRA方式一致的结果

这种现象源于LoRA适配器对数值精度的敏感性。LoRA通过在预训练模型中添加低秩矩阵来实现微调，这些矩阵的数值特性在不同精度下表现不同：

bf16与fp16的差异：bf16（Brain Floating Point）和fp16（Half Precision）虽然都是16位浮点数，但它们的指数位和小数位分配不同。bf16有8位指数和7位小数，fp16有5位指数和10位小数。这种差异会影响小数值的表示精度。
合并操作的影响：当执行模型合并时，LoRA适配器的权重会与基础模型权重进行数学运算。这些运算在不同精度下会产生不同的舍入误差，特别是在处理小数值时。
推理一致性：挂载LoRA的方式保持了原始计算路径，而合并模型则改变了计算顺序和精度特性，这解释了为什么只有特定精度组合才能得到一致结果。

基于以上分析，我们建议在OpenBMB/OmniLMM项目中使用LoRA时遵循以下实践：

比较模型时：务必设置do_sample=false以消除采样随机性的影响
模型合并时：
- 优先使用fp16精度保存合并模型
- 推理时使用与保存时相同的精度（fp16）
- 避免混合使用不同精度（如bf16保存fp16推理）
精度选择考量：
- 如果追求最高精度，建议保持挂载LoRA的方式
- 如果需要部署便利性，选择fp16合并模型方案
- 在资源受限环境下，可以尝试量化方案但需充分测试

大模型微调中的精度管理是一个容易被忽视但至关重要的问题。通过本文的分析，我们理解了LoRA适配器在不同精度环境下的行为差异，并掌握了确保推理一致性的方法。这些经验不仅适用于OpenBMB/OmniLMM项目，也可推广到其他使用LoRA技术的大模型应用中。

登录后查看全文