LLaVA项目预训练模型推理异常问题分析与解决方案

2025-05-09 17:31:15作者：胡易黎Nicole

问题背景

在使用LLaVA项目进行多模态大模型预训练时，开发者可能会遇到Tokenizer不匹配的警告信息，以及在后续模型推理阶段出现的"probability tensor contains either inf, nan or element < 0"运行时错误。这类问题通常与模型预训练过程中的配置不当有关，会影响模型的正常推理能力。

问题现象分析

在预训练阶段，系统会频繁输出Tokenizer不匹配的警告信息，尽管训练损失持续下降且预训练过程能够完成。但当尝试使用预训练好的模型进行图像描述测试时，模型会抛出运行时错误，提示概率张量包含非法值(inf、nan或负数)。

根本原因

Tokenizer版本不匹配：预训练使用的Tokenizer与基础模型不兼容，导致嵌入层学习异常
模型架构配置问题：预训练参数(如mm_projector_type、vision_tower等)与推理环境不匹配
代码版本不一致：使用较旧版本的代码库进行训练，与新版本推理环境存在兼容性问题

解决方案

1. 使用最新代码库

建议开发者始终使用项目的最新稳定版本进行训练和推理。旧版本(如v1.1.3)可能存在已知问题，升级到最新版本可以避免许多兼容性问题。

2. 确保Tokenizer一致性

在预训练开始前，必须验证Tokenizer的兼容性：

检查基础模型(customMPTmodel)的Tokenizer配置
确保训练脚本使用的Tokenizer参数与基础模型一致
处理任何Tokenizer不匹配的警告，不要忽视这些警告信息

3. 完整的训练流程

正确的做法是：

使用最新代码库重新开始预训练
监控训练日志，确保没有Tokenizer相关警告
完成预训练后，再进行指令微调
最后进行推理测试

4. 参数配置建议

对于MPT模型的预训练，推荐以下关键参数配置：

--mm_projector_type mlp2x_gelu
--vision_tower openai/clip-vit-large-patch14
--tune_mm_mlp_adapter True
--mm_vision_select_layer -2

最佳实践

始终从干净的环境开始训练
在训练前验证所有组件的版本兼容性
监控训练过程中的警告信息，及时解决问题
建议在预训练完成后先进行简单的验证测试，再进入指令微调阶段
保持训练和推理环境的一致性

通过以上措施，可以有效地避免预训练模型在推理阶段出现概率张量异常的问题，确保LLaVA项目的多模态模型能够正常工作和产生合理的输出。

LLaVA

[NeurIPS'23 Oral] Visual Instruction Tuning: LLaVA (Large Language-and-Vision Assistant) built towards GPT-4V level capabilities.

项目地址：https://gitcode.com/gh_mirrors/ll/LLaVA

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

nop-entropy

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

leetcode

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

Cangjie-Examples

本仓将收集和展示高质量的仓颉示例代码，欢迎大家投稿，让全世界看到您的妙趣设计，也让更多人通过您的编码理解和喜爱仓颉语言。