模型微调与推理中的NPU设备适配：基于ModelScope/SWIFT框架的实践经验

2025-05-31 14:38:05作者：邬祺芯Juliet

Use PEFT or Full-parameter to CPT/SFT/DPO/GRPO 600+ LLMs (Qwen3.6, DeepSeek-V4, GLM-5.1, InternLM3, Llama4, ...) and 300+ MLLMs (Qwen3-VL, Qwen3-Omni, InternVL3.5, Ovis2.5, GLM4.5v, Gemma4, Llava, Phi4, ...) (AAAI 2025).

项目地址：https://gitcode.com/GitHub_Trending/swift1/swift

引言

在大模型时代，32B参数量的视觉语言模型（如Qwen2.5vl32B）展现出强大的多模态理解能力，但在实际部署中面临严峻的硬件资源挑战。本文基于ModelScope/SWIFT框架，深入探讨了在昇腾NPU设备上进行大模型微调与推理的技术实践，特别是针对设备内存不足（OOM）问题的解决方案。

核心挑战分析

32B参数量的视觉语言模型在单卡环境下加载时极易出现内存不足问题。以Qwen2.5vl32B为例，其完整参数加载需要超过64GB显存，远超单张NPU卡的容量限制。在微调阶段，通过Zero3优化策略可以分布式地将模型参数、梯度和优化器状态分散到多卡上，有效解决了训练时的内存问题。

然而，在推理和LoRA权重合并阶段，开发者仍会面临以下挑战：

单卡无法完整加载32B模型
多卡并行推理需要特殊的设备映射配置
NPU设备与CUDA生态的兼容性问题
多模态输入（特别是图像）的数据管道处理

关键技术解决方案

分布式模型加载

在SWIFT框架中，device_map='auto'参数是实现多卡分布式加载的关键。该参数会自动分析模型结构和可用设备内存，智能地将不同层分配到不同设备上。对于NPU设备，需要特别处理设备内存查询接口：

# 原始CUDA接口（不适用于NPU）
torch.cuda.mem_get_info(device_id)

# 昇腾NPU适配接口
torch.npu.mem_get_info(device_id)[0]  # 返回可用内存大小

推理流程优化

针对多卡推理，推荐配置如下：

ASCEND_RT_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 \
MAX_PIXELS=802816 \
swift infer \
    --model /path/to/merged_model \
    --infer_backend pt \
    --device_map auto \
    --max_batch_size 1

关键参数说明：

ASCEND_RT_VISIBLE_DEVICES：指定可见的NPU设备
MAX_PIXELS：控制输入图像的最大分辨率
device_map：启用自动设备映射
max_batch_size：根据内存情况调整批处理大小

LoRA权重合并技巧

LoRA（Low-Rank Adaptation）是一种高效的微调方法，但在大模型场景下，合并LoRA权重同样面临内存压力。SWIFT框架提供了便捷的合并方案：

swift merge-lora \
    --model /path/to/base_model \
    --lora /path/to/lora_weights \
    --device_map auto \
    --safe_serialization True

合并后的模型可直接用于推理，无需额外加载LoRA适配器。

多模态数据处理实践

视觉语言模型的输入需要特殊处理，特别是图像路径的配置。正确的数据格式应确保图像路径与文本内容正确关联：

{
  "messages": [
    {"role": "user", "content": "<image>请描述这张图片"},
    {"role": "assistant", "content": "医学影像描述文本</s>"}
  ],
  "image": ["/path/to/image.png"]
}