LMDeploy项目中的InternVL模型量化问题解析

2025-06-03 00:02:26作者：蔡丛锟

LMDeploy is a toolkit for compressing, deploying, and serving LLMs.

项目地址：https://gitcode.com/gh_mirrors/lm/lmdeploy

问题背景

在LMDeploy项目中使用InternVL-Chat-V1-5模型进行量化时，当transformers库版本高于或等于4.47时，会出现"cannot import name 'shard_checkpoint' from 'transformers.modeling_utils'"的错误。这个问题主要影响使用AWQ(Activation-aware Weight Quantization)量化方法对多模态大语言模型(MLLM)进行量化转换的过程。

错误分析

该错误的核心在于transformers库4.47版本后对模块结构的调整。具体表现为：

在transformers.modeling_utils模块中移除了shard_checkpoint函数
这个函数被AWQ量化工具链所依赖
当尝试加载InternVL模型时，依赖链会触发这个缺失的函数引用

错误堆栈显示，问题起源于peft库(Parameter-Efficient Fine-Tuning)在加载AWQ相关模块时的失败，最终导致整个量化过程终止。

解决方案

经过技术验证，目前有以下两种解决方案：

降级transformers版本：将transformers库版本降至4.46，这是最直接的解决方法。这个版本仍包含shard_checkpoint函数，可以保证AWQ量化流程的正常执行。
等待上游修复：AWQ和transformers社区可能会在未来版本中协调解决这个兼容性问题，届时可以升级到修复后的版本。

技术建议

对于使用LMDeploy进行模型量化的开发者，建议：

在量化InternVL等MLLM模型前，先检查transformers版本
建立隔离的虚拟环境进行量化操作，避免版本冲突
关注LMDeploy项目的更新日志，及时获取兼容性修复

总结

这个问题的出现反映了深度学习工具链中版本兼容性的重要性。当核心库如transformers进行重大更新时，可能会影响依赖它的整个工具生态系统。开发者需要特别注意版本管理，特别是在生产环境中部署模型量化流程时。对于LMDeploy用户而言，暂时降级transformers版本是最稳妥的解决方案。

LMDeploy is a toolkit for compressing, deploying, and serving LLMs.

项目地址：https://gitcode.com/gh_mirrors/lm/lmdeploy

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

flutter_flutter

ohos_react_native

React Native鸿蒙化仓库

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统