LMDeploy项目NPU设备下Qwen2.5-VL模型推理问题解析与修复

2025-06-03 12:39:38作者：毕习沙Eudora

在深度学习模型部署过程中，设备兼容性问题一直是开发者需要面对的重要挑战。本文将深入分析LMDeploy项目在NPU设备上运行Qwen2.5-VL多模态大模型时遇到的推理错误，并详细讲解解决方案及其背后的技术原理。

问题现象

当开发者在NPU设备上使用LMDeploy部署Qwen2.5-VL-72B-Reasoning模型时，模型推理过程中出现了类型不匹配的错误。错误信息明确指出："x1 not implemented for DT_FLOAT, should be in dtype support list [DT_FLOAT16,DT_BFLOAT16]"，这表明NPU设备上的算子实现不支持float32数据类型，仅支持float16和bfloat16两种精度格式。

问题根源分析

通过深入追踪错误堆栈，我们发现问题的核心在于模型视觉部分的旋转位置编码（Rotary Position Embedding）实现。具体来说：

在Qwen2.5-VL模型中，视觉编码器的输入图像特征(pixel_values)被转换为与文本嵌入相同的dtype（如bfloat16）
然而，旋转位置编码(rotary_pos_emb)却保持了原始的float32精度
当这两种不同精度的张量在注意力机制中进行矩阵运算时，NPU设备上的算子实现无法处理这种混合精度情况

解决方案

针对这一问题，我们提出了两种可行的解决方案：

方案一：模型层级的类型统一

在模型的前向传播过程中，显式地将旋转位置编码转换为与输入相同的精度：

if pixel_values is not None:
    dtype = inputs_embeds.dtype
    pixel_values = pixel_values.to(dtype)
    image_embeds = self.visual(pixel_values,
                             cu_seqlens=vis_cu_seqlens,
                             rotary_pos_emb=vis_pos_emb.to(dtype),  # 关键修改点
                             window_index=window_index,
                             cu_window_seqlens=cu_window_seqlens)

这种修改确保了模型内部所有张量运算时的精度一致性，符合NPU算子的实现要求。

方案二：算子层级的类型转换

另一种解决方案是在NPU设备的算子实现内部进行类型转换。具体来说，在旋转位置编码的应用函数中，将cos和sin张量转换为与查询(query)相同的精度：

cos = cos.reshape(batch, seq_len, 1, -1).to(query.dtype)
sin = sin.reshape(batch, seq_len, 1, -1).to(query.dtype)

这种修改更加底层，能够从根本上解决旋转位置编码应用时的精度不匹配问题。

技术原理深入

旋转位置编码的作用

旋转位置编码(RoPE)是现代大语言模型中广泛使用的位置编码方式，它通过旋转矩阵的方式将位置信息注入到注意力机制中。相比传统的位置编码，RoPE能够更好地保持序列的相对位置关系。

NPU设备的精度限制

NPU(神经网络处理器)作为专用AI加速芯片，通常会针对特定精度进行优化。许多NPU设备为了追求更高的计算效率，会限制支持的精度类型，通常只支持float16或bfloat16，而不支持完整的float32精度。这与GPU设备通常能够自动处理混合精度的情况有所不同。

多模态模型的特殊考虑

Qwen2.5-VL作为多模态模型，需要同时处理文本和视觉输入。视觉部分通常使用与文本部分不同的网络结构，这增加了模型内部精度管理的复杂性。确保所有路径上的张量精度一致是多模态模型部署时需要特别注意的问题。

最佳实践建议

统一精度管理：在模型开发阶段就应建立清晰的精度管理策略，特别是在多模态模型中
设备特性了解：部署前充分了解目标设备的计算特性，包括支持的精度类型和算子限制
全面测试：在不同设备和不同输入情况下进行全面测试，确保模型的鲁棒性
版本兼容性：关注框架和工具链的版本更新，及时获取对新型设备的支持

该问题已在LMDeploy v0.7.2版本中修复，开发者可以升级到最新版本来获得这一改进。通过这个案例，我们再次认识到在模型部署过程中，理解底层硬件特性和保持精度一致性的重要性。

lmdeploy

LMDeploy is a toolkit for compressing, deploying, and serving LLMs.

项目地址：https://gitcode.com/gh_mirrors/lm/lmdeploy

登录后查看全文

项目优选

收起

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

457

439

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。