KServe中LoRA模型加载与调用问题解析

2025-06-15 23:11:25作者：余洋婵Anita

Standardized Distributed Generative and Predictive AI Inference Platform for Scalable, Multi-Framework Deployment on Kubernetes

项目地址：https://gitcode.com/gh_mirrors/ks/kserve

背景介绍

KServe作为Kubernetes上的模型服务框架，支持多种机器学习模型的部署和推理。近期在KServe的HuggingFace服务组件中，用户报告了一个关于LoRA（Low-Rank Adaptation）模型加载与调用的问题。LoRA是一种高效的模型微调技术，通过在预训练模型上添加低秩适配器来实现特定任务的适配。

问题现象

用户在KServe中成功部署了基于HuggingFace的LLM模型，并配置了LoRA适配器。从日志中可以确认LoRA适配器已成功加载：

Loaded new LoRA adapter: name 'llama_adapter', path '/mnt/large_models/test-finetuned-model/'

然而，当用户尝试通过兼容的API接口调用该LoRA适配器时，却收到了"Model with name llama_adapter does not exist"的错误响应。这表明虽然LoRA适配器已加载，但KServe的数据平面未能正确识别和路由到该适配器。

技术分析

配置解析

从用户提供的InferenceService YAML配置中，我们可以看到几个关键参数：

基础模型路径：/mnt/large_models/test-finetuned-model/base_model/
LoRA适配器配置：{"name":"llama_adapter", "path":"/mnt/large_models/test-finetuned-model/"}
启用了vLLM后端并支持LoRA：--backend=vllm --enable-lora

调用方式差异

用户尝试使用两种不同的调用方式：

基础模型调用：使用"model": "llama-finetuned"可以成功获得响应
LoRA适配器调用：使用"model": "llama_adapter"则返回模型不存在的错误

这与vLLM官方文档中描述的LoRA服务行为不符，vLLM明确支持通过指定不同的模型名称来路由到不同的LoRA适配器。

根本原因

经过分析，问题可能出在以下几个方面：

KServe的HuggingFace服务组件在vLLM后端集成时，未完全实现LoRA适配器的名称路由功能
当前版本中，LoRA适配器虽然加载成功，但调用时仍需使用基础模型名称
服务端可能没有正确将LoRA适配器名称注册到可路由的模型列表中

解决方案与建议

临时解决方案

目前可以尝试以下方法：

在调用时使用基础模型名称而非LoRA适配器名称
确认基础模型的推理结果是否已经应用了LoRA适配器的效果

长期改进

KServe开发团队已确认将增加对指定LoRA模型名称的支持。这一改进将实现：

支持通过不同模型名称路由到对应的LoRA适配器
保持与vLLM原生LoRA实现的行为一致性
提供更灵活的模型适配器管理能力

最佳实践建议

对于需要在KServe中使用LoRA适配器的用户，建议：

确保使用最新版本的KServe和HuggingFace服务组件
仔细检查LoRA适配器的加载日志，确认适配器已成功加载
根据实际版本选择适当的调用方式（使用基础模型名称或LoRA适配器名称）
监控模型推理结果，确认LoRA适配效果是否生效

总结

KServe作为生产级的模型服务平台，正在不断完善对先进模型技术如LoRA的支持。当前版本中存在的LoRA适配器调用问题将在后续版本中得到修复，届时用户将能够更灵活地管理和调用不同的模型适配器。对于需要立即使用此功能的用户，可暂时采用基础模型名称调用的变通方案。

Standardized Distributed Generative and Predictive AI Inference Platform for Scalable, Multi-Framework Deployment on Kubernetes

项目地址：https://gitcode.com/gh_mirrors/ks/kserve

登录后查看全文

项目优选

收起

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

昇腾LLM分布式训练框架

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

Oohos_react_native

React Native鸿蒙化仓库