LMDeploy项目对Qwen2.5系列模型的支持与量化实践

2025-06-04 05:37:35作者：钟日瑜

LMDeploy作为大模型推理部署工具链，近期在社区中引起了关于Qwen2.5系列模型支持情况的讨论。本文将深入分析LMDeploy对Qwen2.5模型的支持现状、使用注意事项以及量化实践中的关键问题。

Qwen2.5模型支持情况

LMDeploy已经能够原生支持Qwen2.5系列模型的推理部署。从技术实现角度来看，Qwen2.5与之前的Qwen版本在模型架构上保持了高度兼容性，主要区别在于对话模板中增加了系统提示词："You are Qwen, created by Alibaba Cloud. You are a helpful assistant.\n"。

这一细微变化不会影响LMDeploy的核心推理功能，开发者可以直接使用现有版本的LMDeploy部署Qwen2.5模型。不过值得注意的是，当前版本的function call功能尚未完全支持，这是开发者需要留意的限制。

微调模型部署实践

在实际应用中，许多开发者会对Qwen2.5进行下游任务适配，常见方式包括全参数微调和LoRA适配。LMDeploy对这些场景提供了差异化支持：

全参数微调模型：可以直接部署，但需注意模型架构可能发生变化。如果遇到"Fallback to pytorch engine"的提示，通常是因为微调后模型结构变化导致TurboMind引擎无法识别。此时建议检查LMDeploy版本是否为最新，或考虑使用PyTorch引擎作为替代方案。
LoRA适配模型：目前仅支持通过PyTorch引擎部署。开发者可以通过--adapters参数指定本地或HuggingFace上的LoRA权重路径。这种设计权衡了灵活性和性能，使开发者能够在保持基础模型不变的情况下快速切换不同适配器。