QwenLM/Qwen项目中使用Int4量化模型的技术要点解析

2025-05-12 16:21:16作者：宣利权Counsellor

The official repo of Qwen (通义千问) chat & pretrained large language model proposed by Alibaba Cloud.

项目地址：https://gitcode.com/GitHub_Trending/qw/Qwen

问题背景

在使用Qwen-72B-Chat-Int4模型时，开发者遇到了一个常见的加载问题。当尝试通过AutoGPTQForCausalLM.from_quantized方法加载本地模型时，系统报错提示找不到模型文件。这个问题的核心在于模型加载方式的选择和配置。

技术分析

两种模型加载方式对比

AutoGPTQ加载方式：
- 需要安装AutoGPTQ库
- 使用from_quantized方法加载量化模型
- 需要指定model_basename参数
- 对CUDA扩展有依赖
Transformers加载方式：
- 直接使用HuggingFace的AutoModelForCausalLM
- 接口更简单直接
- 兼容性更好

问题根源

报错信息"Could not find a model in /path with a name in model.safetensors"表明系统在指定路径下找不到预期的模型文件。这是因为：

AutoGPTQ的加载器默认会查找特定名称的模型文件
当模型文件名不符合预期时，需要显式指定model_basename参数
或者可以选择更简单的Transformers加载方式

解决方案

对于Qwen-72B-Chat-Int4模型，推荐使用Transformers库的标准加载方式：

from transformers import AutoModelForCausalLM

model = AutoModelForCausalLM.from_pretrained(
    "Qwen/Qwen-72B-Chat-Int4", 
    device="cuda:0", 
    trust_remote_code=True
).eval()

这种方法：

无需额外配置model_basename
兼容性更好
代码更简洁

技术建议

环境配置：
- 确保安装了正确版本的PyTorch和Transformers
- CUDA版本需要与PyTorch版本匹配
性能考量：
- 使用Int4量化可以显著减少显存占用
- 但可能会轻微影响推理速度
模型选择：
- 根据硬件条件选择合适的量化版本
- Int4适合显存有限的场景

总结

在使用QwenLM大模型时，对于Int4量化版本，优先考虑使用Transformers库的标准接口加载模型。这种方法不仅简单可靠，而且避免了AutoGPTQ可能带来的兼容性问题。开发者应根据实际项目需求和硬件环境，选择最适合的模型加载方式。

The official repo of Qwen (通义千问) chat & pretrained large language model proposed by Alibaba Cloud.

项目地址：https://gitcode.com/GitHub_Trending/qw/Qwen

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

flutter_flutter

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Ascend Extension for PyTorch

ohos_react_native

React Native鸿蒙化仓库