LMDeploy项目：解决Qwen2.5-32B模型在24G显存设备上的OOM问题

2025-06-04 01:19:26作者：伍希望

问题背景

在使用LMDeploy项目部署Qwen2.5-32B大语言模型时，许多用户遇到了显存不足的问题。特别是在24G显存的RTX 3090/4090显卡上，当尝试运行AWQ量化后的Qwen2.5-32B模型时，会出现CUDA内存不足的错误。这个问题从LMDeploy 0.6.0版本开始出现，而在0.5.3版本中却能正常运行。

问题分析

该问题主要表现为在模型加载阶段就出现显存溢出(OOM)，即使模型已经经过AWQ量化处理。通过错误日志分析，问题发生在TurboMind引擎初始化阶段，具体是在内存分配时失败。这表明虽然模型本身已经量化，但在加载过程中仍然需要额外的临时内存空间。

技术细节

AWQ量化：AWQ(Activation-aware Weight Quantization)是一种先进的量化技术，它能在保持模型性能的同时显著减少模型大小。对于Qwen2.5-32B这样的超大模型，4-bit AWQ量化理论上应该能在24G显存设备上运行。
运行时转换：从LMDeploy 0.6.0开始，引擎在运行时进行模型转换的方式有所改变，这会导致额外的显存占用且未能及时释放，从而引发OOM问题。
显存管理：现代GPU显存管理需要考虑模型参数、中间激活值、KV缓存等多个因素。即使量化减少了参数大小，引擎初始化时的临时缓冲区也可能成为瓶颈。

解决方案

经过项目维护者和社区成员的探索，找到了以下有效解决方案：

预转换模型格式：在运行服务前，先使用lmdeploy convert命令将模型转换为TurboMind格式。这种方法避免了运行时的转换开销，显著减少了显存需求。

**具体操作步骤：

# 第一步：量化模型
lmdeploy lite auto_awq /Qwen2.5-32B-Instruct \
  --calib-dataset 'ptb' \
  --calib-samples 128 \
  --calib-seqlen 1024 \
  --w-bits 4 \
  --w-group-size 128 \
  --batch-size 8 \
  --search-scale True \
  --work-dir /Qwen2.5-32B-Instruct-int4

# 第二步：转换为TurboMind格式
lmdeploy convert /Qwen2.5-32B-Instruct-int4

# 第三步：运行API服务
lmdeploy serve api_server /Qwen2.5-32B-Instruct-int4 \
  --server-port 9000 \
  --session-len 8000 \
  --quant-policy 4