KServe v0.15.0版本发布：模型服务与推理能力全面升级

2025-06-13 05:50:59作者：龚格成

项目概述

KServe作为Kubernetes原生的机器学习模型服务框架，为生产环境中的模型部署和推理提供了标准化解决方案。该项目建立在Knative和Istio等技术栈之上，简化了从实验到生产的模型部署流程，支持多种机器学习框架和推理场景。

核心功能增强

1. 模型缓存与本地节点管理

本次版本引入了LocalModelCache和LocalModelNode两个关键CRD（Custom Resource Definition），实现了模型缓存的细粒度管理。这一创新架构允许：

节点级别的模型缓存策略配置
多节点组支持，适应异构计算环境
PVC（持久卷声明）名称自动包含节点组信息
通过注解灵活控制缓存行为
后台任务自动清理机制

2. vLLM集成深度优化

针对大语言模型推理场景，v0.15.0版本对vLLM集成进行了多项改进：

升级至vLLM 0.8.1版本，获得最新性能优化
支持工具调用功能，扩展了API能力
增强参数解析兼容性，统一处理连字符和下划线格式
默认设置SamplingParams.max_tokens，提升易用性
新增推理过程中的客户端断开检测机制

3. 多节点推理架构

新版本完善了多节点推理支持：

健康检查机制增强，提高系统稳定性
参数传递方式优化，从args迁移到command
滚动更新策略调整为MaxUnavailable(0%)/MaxSurge(100%)
为HuggingFace Server多节点场景提供专用Helm Chart支持

关键安全改进

安全方面，v0.15.0版本包含多项重要修复：

修复Starlette框架中的multipart/form-data处理问题
增加文件路径验证，防止异常访问
升级aiohttp库，解决已知安全问题
存储初始化器增强Azure DNS区域ID兼容性
改进S3下载处理，修复PermanentRedirectError

性能与稳定性提升

模型服务器优雅关闭机制，减少服务中断
传输层优化，使用io.Copy替代io.ReadAll处理大文件
路由器服务器优雅关闭支持
增加Transformer深度就绪检查
修复Predictor pod处于CrashLoopBackOff状态时的InferenceService状态显示

开发者体验改进

引入prepare-for-release.sh脚本，简化发布流程
使用controller-gen替代deepcopy-gen，优化代码生成
增加Go mod验证工作流
升级Golang至1.23版本
合并precommit检查，简化开发流程

新增功能亮点

KEDA自动伸缩集成：支持基于自定义指标的自动伸缩，为推理工作负载提供更灵活的扩缩容策略。
OpenAI兼容API增强：
- 支持Embeddings API
- 增加模型版本字段到InferRequest
- 为OpenAIProxyModel添加预测器健康检查
配置管理改进：
- 服务级别配置支持
- 可配置的标签和注解传播
- 资源默认值配置支持
存储系统优化：
- GCS支持单文件下载
- 修复Azure Blob存储访问密钥挂载问题
- 增强S3下载兼容性

总结

KServe v0.15.0版本在模型服务能力、系统稳定性和开发者体验等方面均有显著提升。特别是新增的模型缓存管理和多节点推理支持，为大规模模型部署提供了更强大的基础设施。安全方面的多项修复也使得该版本更适合生产环境部署。对于需要部署和管理机器学习模型的企业和开发者而言，这个版本提供了更完善的功能集和更可靠的运行环境。

kserve

Standardized Serverless ML Inference Platform on Kubernetes

项目地址：https://gitcode.com/gh_mirrors/ks/kserve

登录后查看全文