Swift模型部署中的显存分配策略：pt与vllm后端对比分析

2025-05-31 15:27:42作者：鲍丁臣Ursa

魔搭大模型训练推理工具箱，支持LLaMA、千问、ChatGLM、BaiChuan等多种模型及LoRA等多种训练方式(The LLM training/inference framework of ModelScope community, Support various models like LLaMA, Qwen, Baichuan, ChatGLM and others, and training methods like LoRA, ResTuning, NEFTune, etc.)

项目地址：https://gitcode.com/GitHub_Trending/swift1/swift

在模型部署过程中，显存分配是一个关键的技术问题。本文将以modelscope/swift项目为例，深入分析不同推理后端(pt和vllm)在显存分配策略上的差异，帮助开发者更好地进行多GPU环境下的模型部署。

pt后端的显存分配策略

pt(即PyTorch)后端支持通过device_map和max_memory参数进行精细化的显存分配控制。这种分配方式特别适合异构GPU环境，例如当不同GPU的显存容量不一致时。

使用示例：

swift deploy --model models/deepseek-r1-emo-7b \
             --infer_backend pt \
             --device_map="auto" \
             --max_memory '{0: "3GB", 1: "10GB"}'

这种配置方式允许开发者：

精确控制每张GPU的显存使用上限
实现模型层的自动分配
避免单卡显存不足的问题

vllm后端的显存分配策略

与pt后端不同，vllm后端采用了完全不同的显存分配机制。vllm不支持device_map和max_memory参数，而是通过tensor_parallel_size参数来实现模型并行。

使用示例：

swift deploy --model models/deepseek-r1-emo-7b \
             --infer_backend vllm \
             --tensor_parallel_size 2

vllm的显存分配特点：

采用张量并行而非层并行
显存分配是均匀的，无法指定不同GPU的不同显存配额
更适合同构GPU环境

技术选型建议

在实际项目中选择合适的后端时，应考虑以下因素：

硬件环境：
- 同构GPU集群：优先考虑vllm
- 异构GPU环境：选择pt后端更灵活
性能需求：
- 高吞吐量场景：vllm通常表现更好
- 精细控制需求：pt后端更合适
模型特性：
- 超大模型：vllm的张量并行可能更高效
- 中等规模模型：两者均可，根据其他需求决定

常见问题解决方案

显存分配不均问题：
- pt后端：检查max_memory参数格式是否正确
- vllm后端：确保tensor_parallel_size设置合理
显存溢出问题：
- pt后端：适当降低max_memory值
- vllm后端：减少tensor_parallel_size或使用更小的量化版本
性能优化：
- 多尝试几种参数组合
- 监控GPU利用率进行调整

通过理解这些显存分配策略的差异，开发者可以更高效地部署模型，充分利用硬件资源，获得最佳的性能表现。

swift

项目地址：https://gitcode.com/GitHub_Trending/swift1/swift

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

360

229

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Swift模型部署中的显存分配策略：pt与vllm后端对比分析

pt后端的显存分配策略

vllm后端的显存分配策略

技术选型建议

常见问题解决方案

热门内容推荐

最新内容推荐

项目优选

Swift模型部署中的显存分配策略：pt与vllm后端对比分析

pt后端的显存分配策略

vllm后端的显存分配策略

技术选型建议

常见问题解决方案

相关内容推荐

热门内容推荐

最新内容推荐

项目优选