OpenBMB/OmniLMM项目中MiniCPM-V-LLaMA3预训练稳定性问题分析

2025-05-11 10:18:18作者：范靓好Udolf

项目地址：https://gitcode.com/gh_mirrors/om/OmniLMM

在大型视觉语言模型开发过程中，预训练阶段的稳定性是影响模型最终性能的关键因素。近期OpenBMB/OmniLMM项目组在MiniCPM-V-LLaMA3模型的预训练过程中遇到了一个典型的技术挑战——训练过程中出现NaN（非数值）问题，特别是在感知器重采样器（perceiver resampler）模块附近。

问题现象

开发团队在尝试不同超参数组合时发现：

学习率范围从1e-3到1e-5
批量大小从128到1024 无论怎样调整这些关键参数，模型在训练过程中都会在感知器重采样器模块产生NaN值。这种现象直接导致训练过程无法正常进行，严重影响模型开发进度。

技术背景

感知器重采样器是多模态模型中的关键组件，负责将高维视觉特征压缩为固定长度的表示。当这个模块出现数值不稳定时，通常表明：

梯度爆炸问题
数值计算溢出
模型架构设计存在潜在缺陷

解决方案

项目组经过深入排查后，通过以下方式解决了该问题：

更新了模型核心代码架构
优化了训练流程实现
可能引入了更稳定的数值计算方法

对开发者的建议

对于遇到类似问题的开发者，建议：

确保使用最新版本的代码库
在训练初期密切监控各模块的输出范围
考虑使用梯度裁剪等技术
可以尝试逐步增加批量大小而非直接使用较大值

这个问题在多模态模型开发中具有典型性，反映了视觉-语言联合训练中的常见挑战。通过解决这类问题，可以提升模型的训练稳定性，为后续的微调和应用打下坚实基础。

项目地址：https://gitcode.com/gh_mirrors/om/OmniLMM

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

flutter_flutter

ohos_react_native

React Native鸿蒙化仓库

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解