LLaMA-Factory项目中VLLM后端与原生VLLM加载LoRA的区别分析

2025-05-01 02:36:55作者：姚月梅Lane

问题背景

在使用LLaMA-Factory项目进行模型微调和服务部署时，开发者发现通过LLaMA-Factory CLI调用VLLM后端与直接使用原生VLLM启动服务时，LoRA适配器的加载行为存在差异。具体表现为：通过LLaMA-Factory CLI启动的服务能够正确应用微调后的效果，而直接使用VLLM启动的服务似乎没有加载LoRA适配器。

技术细节分析

1. 两种启动方式的命令对比

LLaMA-Factory CLI启动命令：

CUDA_VISIBLE_DEVICES=0,1 API_PORT=8000 llamafactory-cli api \
    --model_name_or_path /path/to/model \
    --adapter_name_or_path /path/to/lora \
    --template deepseek3 \
    --finetuning_type lora \
    --infer_backend vllm \
    --vllm_enforce_eager

原生VLLM启动命令：

CUDA_VISIBLE_DEVICES=0,1 python -m vllm.entrypoints.openai.api_server \
    --trust-remote-code \
    --served-model-name custom-qwen \
    --model /path/to/model \
    --tensor-parallel-size 2 \
    --gpu_memory_utilization 0.7 \
    --max_num_seqs 4 \
    --max_model_len 3000 \
    --enable-lora \
    --dtype float16 \
    --quantization awq_marlin \
    --lora-modules lora=/path/to/lora

2. 关键差异点

通过分析日志和技术实现，我们发现以下关键差异：

模型名称处理：
- LLaMA-Factory在内部处理时，会将请求中的模型名称自动映射到LoRA适配器
- 原生VLLM需要显式指定--served-model-name参数，并在请求时使用该名称
LoRA加载机制：
- LLaMA-Factory对VLLM后端进行了封装，自动处理了LoRA适配器的绑定逻辑
- 原生VLLM需要明确指定--enable-lora参数和--lora-modules配置
请求处理流程：
- 通过LLaMA-Factory发起的请求会自动关联到正确的LoRA适配器
- 直接使用VLLM时，需要在请求中明确指定要使用的LoRA适配器名称

解决方案

要使原生VLLM正确加载和应用LoRA适配器，需要确保以下几点：

启动参数正确性：
- 必须包含--enable-lora参数启用LoRA支持
- --lora-modules参数格式必须正确，如lora=/path/to/lora
请求参数配置：
- 在API请求中，需要将model字段设置为LoRA适配器的名称（如示例中的"lora"）
- 确保请求的模型名称与启动时配置的LoRA模块名称一致
版本兼容性：
- 确认使用的VLLM版本支持LoRA功能
- 检查是否有已知的LoRA加载相关issue或限制