Langchain-Chatchat项目中Qwen-14B模型加载的内存问题分析与解决

2025-05-04 09:05:27作者：江焘钦

项目地址：https://gitcode.com/gh_mirrors/lang/Langchain-Chatchat

在部署Langchain-Chatchat项目时，许多开发者可能会遇到类似的内存不足问题，特别是在加载大型语言模型如Qwen-14B时。本文将从技术角度深入分析这一问题的成因，并提供多种解决方案。

问题现象

当尝试在Langchain-Chatchat项目中加载Qwen-14B模型时，系统会抛出CUDA内存不足的错误。典型错误信息显示，虽然GPU总容量为21.99GB，但当前仅有119.06MB可用，而PyTorch已占用了21.64GB内存。这表明系统内存分配出现了问题。

根本原因分析

模型规模过大：Qwen-14B作为140亿参数的大模型，对显存需求极高。在FP16精度下，仅模型参数就需要约28GB显存，这已经超过了单张24GB显卡的容量。
多模型并行加载：项目默认配置尝试同时加载多个模型（Qwen-14B、zhipu-api和openai-api），这进一步加剧了显存压力。
显存碎片化：错误信息中提到的"reserved but unallocated memory"表明显存可能存在碎片化问题。
模型加载顺序：当模型列表中第一个模型配置不当时，会影响后续模型的正常加载。

解决方案

1. 单模型优先策略

对于资源有限的开发环境，建议采用单模型运行策略：

# 修改startup.py中的模型配置
# 仅保留一个主要模型，如Qwen-14B或ChatGLM
LLM_MODELS = ['Qwen-14B']  # 或 ['ChatGLM']

2. 显存优化配置

在PyTorch中增加以下环境变量配置，优化显存分配：

export PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:128

3. 多GPU分布式加载

如果系统配备多张GPU，可以采用模型并行策略：

# 修改模型worker配置
worker_config = {
    'device': 'cuda:0',  # 指定主GPU
    'gpus': '0,1',       # 使用两张GPU
    'num_gpus': 2        # GPU数量
}

4. 量化加载技术

对于Qwen-14B等大模型，可采用4-bit或8-bit量化技术减少显存占用：

from transformers import BitsAndBytesConfig

quant_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_use_double_quant=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.bfloat16
)

model = AutoModelForCausalLM.from_pretrained(
    "Qwen/Qwen-14B",
    quantization_config=quant_config,
    device_map="auto"
)

5. 显存监控与调试

在模型加载过程中实时监控显存使用情况：

import torch
from pynvml import *

def print_gpu_utilization():
    nvmlInit()
    handle = nvmlDeviceGetHandleByIndex(0)
    info = nvmlDeviceGetMemoryInfo(handle)
    print(f"GPU内存使用: {info.used//1024**2}MB/{info.total//1024**2}MB")

print_gpu_utilization()