OpenBMB/OmniLMM项目中MiniCPM-V-2_6模型的INT4量化问题解析

2025-05-11 14:01:27作者：廉皓灿Ida

项目地址：https://gitcode.com/gh_mirrors/om/OmniLMM

在OpenBMB/OmniLMM项目中，用户在使用MiniCPM-V-2_6模型进行INT4量化时遇到了一些技术问题。本文将深入分析这些问题的根源，并提供解决方案。

问题现象

当用户尝试对MiniCPM-V-2_6模型进行INT4量化时，出现了概率张量包含非法值的错误。具体表现为在调用torch.multinomial函数时，系统报告概率张量中包含了inf、nan或小于0的元素。这种错误通常会导致模型推理过程中断。

问题原因分析

经过技术社区的多方验证，发现这个问题主要由以下几个因素导致：

Torch版本不兼容：部分用户的环境中使用的是torch 2.1.0版本，而该版本与量化过程存在兼容性问题。升级到torch 2.1.2版本后问题得到解决。
环境配置冲突：有用户反映在配置vllm环境后出现了这个问题，说明可能存在某些库之间的版本冲突。重新安装requirements.txt中的依赖可以恢复正常的运行环境。
量化方法支持：值得注意的是，vllm目前不支持bitsandbytes量化类型，这可能导致部分用户在使用vllm进行推理时遇到障碍。

解决方案

针对上述问题，我们建议采取以下解决方案：

升级Torch版本：将PyTorch升级到2.1.2或更高版本，这可以解决概率张量异常的问题。
重建干净环境：如果问题仍然存在，建议创建一个新的虚拟环境，并严格按照项目提供的requirements.txt文件安装所有依赖。
选择合适的量化方法：如果需要使用vllm进行推理，应考虑使用其支持的量化方法，如AWQ、GPTQ等，而不是bitsandbytes。

技术建议

对于希望在OpenBMB/OmniLMM项目中使用量化模型的开发者，我们提供以下建议：

在进行量化操作前，务必检查所有关键库的版本兼容性，特别是PyTorch和相关量化库。
对于生产环境，建议先在测试环境中验证量化模型的效果和性能，确保没有类似的问题。
关注项目官方文档和更新，及时了解最新的量化方法支持和最佳实践。

通过以上分析和建议，希望能帮助开发者顺利地在OpenBMB/OmniLMM项目中使用MiniCPM-V-2_6模型的INT4量化功能，充分发挥量化模型在推理效率和资源占用方面的优势。

项目地址：https://gitcode.com/gh_mirrors/om/OmniLMM

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

flutter_flutter

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

ohos_react_native

React Native鸿蒙化仓库

基于golang开发的网关。具有各种插件，可以自行扩展，即插即用。此外，它可以快速帮助企业管理API服务，提高API服务的稳定性和安全性。

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理