Qwen2.5-VL模型微调中出现的NaN问题分析与解决方案

2025-05-23 08:30:02作者：劳婵绚Shirley

在基于Qwen2.5-VL大模型进行微调训练时，开发者可能会遇到一个典型问题：在计算注意力权重(attn_weights)时出现NaN值。这种情况通常发生在使用bf16混合精度训练的场景下。

问题现象

当对Qwen2.5-VL模型进行微调后，在推理测试阶段，某些测试数据会导致注意力权重计算过程中产生NaN值。具体表现为模型前向传播时，在计算softmax归一化前的注意力得分时出现数值异常。

根本原因分析

经过技术分析，这个问题主要源于以下几个方面：

bf16精度限制：bf16浮点格式仅有8位指数位，相比fp32的数值范围更小。在计算注意力得分时，如果输入值过大，容易导致数值溢出。
softmax数值稳定性：传统的softmax计算在遇到极大或极小的输入值时，容易产生数值不稳定问题，特别是在低精度计算环境下。
梯度爆炸：在训练过程中，如果学习率设置不当或梯度裁剪不足，可能导致某些参数值异常增大，进而在推理时产生数值问题。

解决方案

针对上述问题，可以采取以下解决方案：

使用fp32精度训练：
- 将训练精度从bf16切换为fp32
- 虽然会略微增加显存消耗，但能显著提高数值稳定性

实现稳定的softmax计算：

def stable_softmax(x):
    x = x - torch.max(x, dim=-1, keepdim=True)[0]
    return torch.nn.functional.softmax(x, dim=-1)

调整训练超参数：
- 适当降低学习率
- 增加梯度裁剪阈值
- 使用学习率预热策略
数据预处理优化：
- 检查输入数据范围
- 确保输入数据经过适当的归一化处理

最佳实践建议

对于Qwen2.5-VL模型的微调，建议采用以下实践：

初次微调时优先使用fp32精度，待模型收敛稳定后再尝试bf16
实现自定义的稳定性检查机制，在训练过程中监控数值异常
采用渐进式精度策略，初期使用fp32，后期切换为bf16加速训练
在关键计算节点(如注意力机制)添加数值保护逻辑

通过以上方法，可以有效解决Qwen2.5-VL模型微调过程中出现的NaN问题，确保模型训练的稳定性和可靠性。

Qwen2.5-VL

Qwen2.5-VL is the multimodal large language model series developed by Qwen team, Alibaba Cloud.

项目地址：https://gitcode.com/GitHub_Trending/qw/Qwen2.5-VL

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

nop-entropy

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

Cangjie-Examples

本仓将收集和展示高质量的仓颉示例代码，欢迎大家投稿，让全世界看到您的妙趣设计，也让更多人通过您的编码理解和喜爱仓颉语言。

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

openHiTLS

旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件，通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求，让密码技术应用更简单，同时探索后量子等先进算法创新实践，构建密码前沿技术底座！

1.03 K

479

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

cherry-studio

🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端

TypeScript

790