LMDeploy v0.7.3版本发布：支持Qwen3系列模型与Ascend优化升级

2025-06-09 18:13:52作者：廉彬冶Miranda

LMDeploy作为一款高效的大语言模型推理部署工具包，近期发布了v0.7.3版本更新。该版本在模型支持、性能优化和功能完善等方面都有显著提升，特别是新增了对Qwen3系列模型的支持，以及对Ascend平台的深度优化。

核心功能更新

Qwen3系列模型支持

本次更新最引人注目的是新增了对Qwen3和Qwen3MoE模型的支持。Qwen3是通义千问最新推出的开源大语言模型系列，而Qwen3MoE则是其混合专家版本。LMDeploy不仅为这两个模型提供了PyTorch引擎支持，还修复了Qwen3MoE配置解析的相关问题，确保模型能够正确加载和运行。

Ascend平台优化

针对华为Ascend平台，v0.7.3版本带来了多项重要改进：

新增对DeepSeekV2模型的支持，扩展了Ascend平台的模型覆盖范围
实现了W8A8（权重8位、激活8位）量化在图模式下的支持，显著提升推理效率
优化了混合专家(MoE)模型在Ascend平台的性能表现
为QwenVL2.5模型启用了图模式支持

这些优化使得LMDeploy在Ascend平台上的表现更加出色，为开发者提供了更高效的推理解决方案。

性能与功能优化

在性能方面，开发团队对MLA（Multi-Head Latent Attention）进行了优化，移除了不必要的"v"加载操作，减少了内存占用。同时，对动态推理(DLinfer)中的rope操作进行了重构，提升了计算效率。

功能完善方面，v0.7.3版本改进了交互式API，增加了对特殊标记间空格的控制选项，并增强了与空文本输入的兼容性。此外，还新增了环境变量来控制超时设置，为系统管理提供了更多灵活性。

问题修复与稳定性提升

该版本修复了多个关键问题，包括：

修复了激活网格大小超出限制的问题
修正了工具调用时的JSON编码问题（设置ensure_ascii=False）
解决了流式内容中think_end_token_id的处理问题
完善了finish_reason的返回逻辑
修复了动态调度中的张量分发问题

这些修复显著提升了LMDeploy的稳定性和可靠性，为生产环境部署提供了更好的保障。

使用建议

对于需要使用Qwen3系列模型的开发者，建议直接升级到v0.7.3版本以获得最佳支持。在Ascend平台上进行部署的用户，可以充分利用新增的W8A8图模式量化来提升推理性能。同时，新版本对交互式API的改进使得开发对话系统更加便捷。

LMDeploy持续保持对最新模型和硬件的快速适配能力，v0.7.3版本的发布再次证明了这一点。无论是研究机构还是企业用户，都可以通过LMDeploy获得高效、稳定的大模型推理体验。

lmdeploy

LMDeploy is a toolkit for compressing, deploying, and serving LLMs.

项目地址：https://gitcode.com/gh_mirrors/lm/lmdeploy

登录后查看全文

项目优选

收起

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

455

437

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

LMDeploy v0.7.3版本发布：支持Qwen3系列模型与Ascend优化升级

核心功能更新

Qwen3系列模型支持

Ascend平台优化

性能与功能优化

问题修复与稳定性提升

使用建议

热门内容推荐

最新内容推荐

项目优选

LMDeploy v0.7.3版本发布：支持Qwen3系列模型与Ascend优化升级

核心功能更新

Qwen3系列模型支持

Ascend平台优化

性能与功能优化

问题修复与稳定性提升

使用建议

相关内容推荐

热门内容推荐

最新内容推荐

项目优选