FastChat框架在华为Ascend NPU上的多卡推理适配实践

2025-05-02 08:01:42作者：殷蕙予

背景介绍

FastChat是一个流行的开源对话模型服务框架，能够方便地部署各类大语言模型并提供API服务。然而，在华为Ascend NPU硬件平台上，FastChat默认仅支持单卡推理，无法充分利用多NPU卡的算力资源。本文将详细介绍如何修改FastChat框架以支持在华为910B NPU服务器上的多卡推理能力。

技术挑战

在华为Ascend NPU环境下实现多卡推理面临几个关键技术挑战：

框架原生支持不足：FastChat最初设计主要针对NVIDIA GPU，对NPU的支持有限
内存分配问题：大模型在多卡间的显存分配需要特殊处理
计算资源调度：需要确保推理过程中的KV cache能正确利用多卡资源

解决方案

环境准备

实施多卡推理需要以下环境配置：

操作系统：Linux Ascend910B01 4.19.90内核
NPU驱动版本：24.1.rc1
CANN版本：8.0
模型：Qwen2-7B-Instruct

核心代码修改

关键修改集中在FastChat的模型适配器文件(model_adapter.py)中，主要实现了：

增加NPU设备类型识别
多卡自动分配策略
显存管理优化

具体修改点包括：

if device == "npu":
    kwargs = {"torch_dtype": torch.float16}
    try:
        import torch_npu
        if num_gpus != 1:
            kwargs["device_map"] = "auto"
    except ImportError:
        warnings.warn("Ascend Extension for PyTorch is not installed.")

这段代码实现了：

设置默认使用FP16精度
检测torch_npu扩展是否安装
当使用多卡时自动启用设备映射

运行配置

启动服务时需要特别注意：

使用ASCEND_RT_VISIBLE_DEVICES指定可见NPU设备
通过--num-gpus参数指定使用的卡数
明确设置--device为npu

典型启动命令示例：

ASCEND_RT_VISIBLE_DEVICES=4,5,6,7 python -m fastchat.serve.cli \
    --model-path /path/to/model/Qwen2-7B-Instruct \
    --num-gpus 4 \
    --device npu