LMDeploy项目在Tesla T4双卡部署中的Segmentation Fault问题分析与解决

2025-06-03 03:50:36作者：盛欣凯Ernestine

问题背景

在使用LMDeploy项目的最新版本(0.7.0.post2)时，开发者在Tesla T4双卡(SM75架构)环境下部署API Server时遇到了Segmentation fault问题。该问题表现为程序在启动几秒后崩溃，仅显示"Segmentation fault (core dumped)"错误信息，没有其他明显报错。通过nvidia-smi观察，发现Python进程在崩溃前为每张显卡申请了约137MB显存。

环境配置

问题出现的环境配置如下：

硬件：两张Tesla T4 16G显卡(SM75架构)，采用张量并行方式
软件：RockyOS 5.14系统，CUDA 12.4驱动
模型：Qwen2.5-Coder-32B-Instruct-GPTQ-Int4量化模型
部署命令参数：使用TurboMind推理引擎，设置最大批次大小为4，会话长度16284，张量并行度为2

问题排查过程

初步分析

开发者首先尝试了以下排查步骤：

使用--log-level INFO和--log-level DEBUG参数获取更详细的日志信息
在Docker容器中复现问题
对比单卡环境下运行Qwen 14B模型的情况

日志分析

通过调试日志，可以观察到以下关键信息：

TurboMind引擎成功加载了模型配置
NCCL通信初始化过程看似正常完成
日志显示模型配置参数正确，包括头数、隐藏层维度等关键参数
问题发生在NCCL初始化完成后，模型推理开始前的阶段

对比测试

开发者发现：

相同环境下，单卡运行Qwen 14B模型没有问题
VLLM推理引擎下相同模型可以正常运行
问题似乎与多卡环境下的通信机制有关

根本原因

经过深入排查，发现问题根源在于PyTorch 2.5.1版本的依赖项nvidia_nccl_cu12==2.21.5存在兼容性问题。这个版本的NCCL库在多卡通信时可能导致段错误，特别是在Tesla T4这种较老的显卡架构上。

解决方案

针对这个问题，开发者找到了以下解决方法：

升级NCCL版本：将nvidia_nccl_cu12升级到2.25.1版本
忽略依赖警告：在升级过程中可能需要忽略PyTorch的依赖版本警告
替代方案：如果升级后仍有问题，可以考虑：
- 使用单卡模式运行
- 切换到VLLM后端
- 降低模型规模以适应单卡环境

技术建议

对于使用LMDeploy项目在多卡环境部署大模型的开发者，建议：

版本兼容性检查：在部署前仔细检查PyTorch、CUDA和NCCL的版本兼容性
日志监控：始终使用--log-level DEBUG参数启动服务，以便获取详细错误信息
渐进式测试：先使用小模型或单卡环境验证系统基本功能，再逐步扩展到多卡和大模型
环境隔离：考虑使用Docker容器隔离部署环境，避免系统级依赖冲突

总结

这个案例展示了深度学习部署过程中版本依赖问题可能导致的隐蔽错误。通过系统性的日志分析和对比测试，开发者能够定位到NCCL库的版本兼容性问题。这也提醒我们在生产环境部署前，需要进行充分的环境验证和兼容性测试，特别是当使用多卡并行计算时。LMDeploy项目作为高效的推理部署工具，在实际应用中需要注意底层依赖的版本管理，以确保系统稳定运行。

lmdeploy

LMDeploy is a toolkit for compressing, deploying, and serving LLMs.

项目地址：https://gitcode.com/gh_mirrors/lm/lmdeploy

登录后查看全文