LMDeploy在Arm架构GH200平台上的部署实践

2025-06-03 05:59:05作者：明树来

LMDeploy is a toolkit for compressing, deploying, and serving LLMs.

项目地址：https://gitcode.com/gh_mirrors/lm/lmdeploy

背景介绍

LMDeploy作为InternLM推出的高效推理工具链，在x86架构上已经得到了广泛应用。然而，在Arm架构的GH200平台上部署时，开发者可能会遇到一些特殊挑战，特别是与Triton依赖相关的兼容性问题。

核心问题分析

在Arm架构的GH200平台上部署LMDeploy时，主要面临两个关键问题：

Triton版本兼容性问题：LMDeploy要求Triton版本在3.0.0到3.1.0之间，但官方PyPI仓库并未提供Arm平台的Triton预编译包。即使开发者从源码构建了Triton 3.2.0版本，也无法满足LMDeploy的版本要求。
引擎选择限制：默认情况下，如果Turbomind引擎无法正确安装，LMDeploy会回退到纯Python实现的PytorchEngine，这可能导致性能上的损失。

解决方案

针对这些问题，我们推荐以下解决方案：

源码构建Triton 3.1.0：开发者需要从Triton的GitHub仓库检出3.1.0版本，并在本地进行编译安装。这一步骤需要确保系统已安装所有必要的构建工具和依赖项。
完整源码构建LMDeploy：仅仅使用pip install -e .命令安装LMDeploy是不够的，这只会安装Python部分的代码。要启用Turbomind引擎，必须按照官方文档进行完整的源码构建，包括C++和CUDA部分。
环境隔离：建议使用虚拟环境（如venv或conda）来管理依赖关系，避免系统级别的包冲突。

实施步骤

创建并激活Python虚拟环境
从源码构建并安装Triton 3.1.0
克隆LMDeploy仓库
执行完整的构建流程，包括C++/CUDA部分
验证安装，确保Turbomind引擎可用

注意事项

版本控制：严格遵循LMDeploy对依赖版本的精确要求，特别是Triton的3.0.0-3.1.0范围。
构建环境：确保构建环境配置正确，包括CUDA工具链、编译器版本等。
性能测试：安装完成后，建议进行基准测试，比较Turbomind引擎和PytorchEngine的性能差异。

结论

通过上述方法，开发者可以在Arm架构的GH200平台上成功部署LMDeploy并启用其高性能的Turbomind引擎。这一过程虽然比x86平台上的部署更为复杂，但通过精确控制依赖版本和完整的源码构建，仍然可以获得与x86平台相当的性能表现。

对于需要在异构计算环境中部署大模型推理服务的团队来说，掌握这些跨平台部署技巧将大大扩展模型服务的部署灵活性。

LMDeploy is a toolkit for compressing, deploying, and serving LLMs.

项目地址：https://gitcode.com/gh_mirrors/lm/lmdeploy

登录后查看全文

项目优选

收起

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

deepin linux kernel

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。