使用vllm加载Llama2模型时的多卡配置问题解析

2025-07-01 00:37:48作者：袁立春Spencer

api-for-open-llm

Openai style api for open large language models, using LLMs just as chatgpt! Support for LLaMA, LLaMA-2, BLOOM, Falcon, Baichuan, Qwen, Xverse, SqlCoder, CodeLLaMA, ChatGLM, ChatGLM2, ChatGLM3 etc. 开源大模型的统一后端接口

项目地址：https://gitcode.com/gh_mirrors/ap/api-for-open-llm

在部署大型语言模型时，合理配置GPU资源是确保模型顺利运行的关键。本文将针对api-for-open-llm项目中vllm引擎加载Llama2模型时的多卡配置问题进行深入分析，帮助开发者避免常见错误。

问题现象

当尝试使用vllm引擎加载Llama2-13b-chat-hf模型时，开发者配置了以下参数：

指定使用GPU 3和4
设置TENSOR_PARALLEL_SIZE=2（意图使用两张GPU）
同时设置了NUM_GPUS=2

然而实际运行时，模型仅在第一张GPU上加载，导致显存不足的错误。

问题根源

经过分析，发现配置文件中存在一个关键错误：TENSOR_PARALLEL_SIZE参数被重复设置了两次。第一次设置为2（正确值），但随后又被设置为1（错误值）。这种重复定义导致最终生效的是最后一个设置值1，使得模型只在单卡上运行。

解决方案

参数一致性检查：确保所有参数只定义一次，避免重复设置导致冲突
正确配置张量并行：对于vllm引擎，TENSOR_PARALLEL_SIZE参数直接决定了使用的GPU数量
GPU选择验证：确认CUDA_VISIBLE_DEVICES环境变量与GPUS参数一致

最佳实践建议

参数优先级理解：了解api-for-open-llm项目中各参数的优先级关系
配置验证：在启动前使用nvidia-smi命令验证GPU选择是否正确
显存预估：根据模型大小和GPU显存容量合理规划并行策略
日志监控：关注启动日志中的设备分配信息，确保符合预期

总结

在分布式模型部署中，参数配置的精确性至关重要。开发者应当仔细检查配置文件，避免参数冲突，同时理解各参数的实际含义和相互关系。对于vllm引擎，TENSOR_PARALLEL_SIZE是控制多卡并行的核心参数，正确设置这一参数是确保模型在多GPU上均衡加载的关键。

api-for-open-llm

Openai style api for open large language models, using LLMs just as chatgpt! Support for LLaMA, LLaMA-2, BLOOM, Falcon, Baichuan, Qwen, Xverse, SqlCoder, CodeLLaMA, ChatGLM, ChatGLM2, ChatGLM3 etc. 开源大模型的统一后端接口

项目地址：https://gitcode.com/gh_mirrors/ap/api-for-open-llm

登录后查看全文

项目优选

收起

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。