LMDeploy项目中浮点异常问题的分析与解决

2025-06-03 11:28:24作者：虞亚竹Luna

问题背景

在使用LMDeploy项目部署Qwen2.5-VL-7B-Instruct-AWQ模型时，部分用户遇到了"Floating point exception"(浮点异常)的错误。这种错误通常发生在模型推理过程中，表现为RayWorker进程意外终止，导致整个推理流程中断。

错误现象

从错误日志中可以看到，系统抛出了SIGFPE信号(浮点异常)，错误发生在PyTorch的线性层计算过程中。具体表现为：

模型加载阶段正常完成
推理请求发出后，在计算logits时出现异常
错误栈显示问题出在lmdeploy/pytorch/backends/default/linear.py的forward方法中
最终导致RayWorker进程崩溃

根本原因分析

经过深入排查，发现该问题与CUDA数学库版本不兼容有关。具体来说：

项目依赖的nvidia-cublas-cu12库版本过低
在特定硬件环境(NVIDIA H20)下执行浮点运算时出现异常
这种不兼容性导致模型前向传播过程中的矩阵运算出错

解决方案

解决该问题的方法非常简单，只需升级nvidia-cublas-cu12库到指定版本：

pip install nvidia-cublas-cu12==12.4.5.8

这个版本修复了与特定GPU架构的兼容性问题，确保了浮点运算的稳定性。

预防措施

为避免类似问题，建议：

在部署LMDeploy项目前，检查所有CUDA相关库的版本兼容性
特别是对于较新的GPU架构，应使用最新稳定版的CUDA数学库
在容器化部署时，确保基础镜像中的CUDA版本与项目需求匹配

总结

浮点异常是深度学习部署中常见的问题之一，通常与底层数学库的版本兼容性有关。通过及时更新相关依赖库，可以有效避免这类问题的发生。LMDeploy作为一个功能强大的模型部署工具，对底层计算库有特定的版本要求，用户在实际部署时应特别注意环境配置的细节。

对于使用NVIDIA H20等较新GPU的用户，建议在项目部署前先验证CUDA数学库的版本，确保计算过程的稳定性。这种预防性措施可以节省大量故障排查时间，提高部署效率。

lmdeploy

LMDeploy is a toolkit for compressing, deploying, and serving LLMs.

项目地址：https://gitcode.com/gh_mirrors/lm/lmdeploy

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

176

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

TSX

411

130