首页
/ Seldon Core v2.9.0 发布:模型推理与自动扩展能力全面升级

Seldon Core v2.9.0 发布:模型推理与自动扩展能力全面升级

2025-06-12 23:07:48作者:江焘钦

Seldon Core 是一个开源的机器学习部署平台,专注于帮助企业在 Kubernetes 上高效部署、管理和扩展机器学习模型。它提供了完整的模型服务生命周期管理能力,从模型部署到监控、AB测试和自动扩展等一应俱全。最新发布的 v2.9.0 版本带来了多项重要改进,特别是在模型推理性能、自动扩展能力和操作简化方面。

核心功能增强

推理响应流式传输

v2.9.0 版本引入了对 REST(通过 SSE)和 gRPC 的推理响应流式传输支持。这一功能特别适用于需要实时或渐进式返回结果的场景,如大型语言模型(LLM)的推理或生成式AI应用。通过流式传输,客户端可以逐步接收推理结果,而不必等待整个响应完成,显著改善了用户体验和系统响应感知。

技术实现上,这一功能需要 MLServer 1.6.0 或更高版本的支持。对于 REST 接口,采用了 Server-Sent Events(SSE)协议;而对于 gRPC,则利用了其原生的流式传输能力。开发人员现在可以构建更灵活的AI应用,如实时聊天机器人、逐步生成的内容系统等。

部分副本调度机制

新版本引入了创新的部分副本调度机制,显著改善了模型在自动扩展时的行为。这一机制的核心思想是:即使没有足够的推理服务器资源来满足全部副本请求,系统也会尽可能多地加载模型副本,确保服务持续可用。

该机制通过三个状态来管理模型可用性:

  1. 完全调度:所有请求的副本都已加载并可用
  2. 部分调度:可用副本数满足最小要求但未达目标
  3. 调度失败:无法满足最小副本要求

这种设计特别适合生产环境中资源波动的情况,确保服务在资源紧张时仍能保持基本可用性,同时随着资源释放自动恢复到最佳状态。

自动扩展能力革新

混合自动扩展模式

v2.9.0 实现了原生自动扩展与 Kubernetes HPA 的深度集成,形成了混合自动扩展模式。这种模式下:

  1. 用户只需配置单个 HPA 资源来控制模型副本数
  2. 系统自动根据模型副本需求调整底层推理服务器数量
  3. 支持多模型服务(MMS)场景

这种设计简化了运维复杂度,同时保持了扩展的灵活性。当模型需要扩展时,如果服务器资源不足,系统会自动增加服务器实例;当模型缩减时,空闲的服务器实例会被自动回收。

服务器资源打包(实验性)

作为实验性功能,v2.9.0 引入了服务器资源打包机制。该功能在模型缩减时,尝试将剩余模型重新分配到更少的服务器上,提高资源利用率。虽然当前版本默认禁用此功能,但它为未来的资源优化奠定了基础。

调度与资源管理优化

新版本改进了调度算法,现在会综合考虑模型的内存需求以及推理服务器配置中的并行工作线程数(如 MLServer 的 parallel_workers 或 Triton 的 instance_group 设置)。这种精细化的资源管理可以:

  1. 更准确地预估模型资源需求
  2. 避免因内存不足导致的调度失败
  3. 提高集群资源利用率

对于 Triton 推理服务器,目前仅考虑 KIND_CPU 类型的实例组,未来版本可能会扩展支持更多类型。

日志与可观测性改进

v2.9.0 统一了系统各组件的日志级别控制,包括:

  1. 内部组件日志级别集中配置
  2. Envoy 访问日志定制化支持
  3. Kafka 客户端日志级别适配

这些改进使得系统调试和监控更加便捷,特别是在复杂的生产环境中,管理员可以根据需要灵活调整日志详细程度,平衡可观测性和性能开销。

生产就绪性增强

新版本包含多项提升生产稳定性的改进:

  1. 修复了 Envoy 在模型滚动更新时的临时 503 错误
  2. 改进了 Prometheus 指标标签,确保实验场景下指标准确性
  3. 增强了 Model Gateway 的错误处理机制,避免静默失败
  4. 修复了 Scheduler Pod 规格覆盖的问题

这些改进共同提升了系统在生产环境中的稳定性和可靠性。

总结

Seldon Core v2.9.0 通过引入流式推理、智能调度和混合自动扩展等创新功能,显著提升了机器学习模型在生产环境中的服务能力和资源效率。这些改进不仅增强了系统功能,也简化了运维复杂度,使得企业能够更轻松地部署和管理大规模AI服务。

对于现有用户,所有 CRD 变更都保持了向后兼容性,确保平滑升级。新用户则可以从更完善的功能和文档中受益,快速构建高效的机器学习服务平台。随着这些功能的引入,Seldon Core 进一步巩固了其在 Kubernetes 机器学习部署领域的领先地位。

登录后查看全文
热门项目推荐

项目优选

收起
kernelkernel
deepin linux kernel
C
22
6
docsdocs
OpenHarmony documentation | OpenHarmony开发者文档
Dockerfile
162
2.05 K
nop-entropynop-entropy
Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台,包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分,采用java语言实现,可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用
Java
8
0
ShopXO开源商城ShopXO开源商城
🔥🔥🔥ShopXO企业级免费开源商城系统,可视化DIY拖拽装修、包含PC、H5、多端小程序(微信+支付宝+百度+头条&抖音+QQ+快手)、APP、多仓库、多商户、多门店、IM客服、进销存,遵循MIT开源协议发布、基于ThinkPHP8框架研发
JavaScript
96
15
ohos_react_nativeohos_react_native
React Native鸿蒙化仓库
C++
199
279
leetcodeleetcode
🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer(第 2 版)》、《程序员面试金典(第 6 版)》题解
Java
60
16
Git4ResearchGit4Research
Git4Research旨在构建一个开放、包容、协作的研究社区,让更多人能够参与到科学研究中,共同推动知识的进步。
HTML
22
1
apintoapinto
基于golang开发的网关。具有各种插件,可以自行扩展,即插即用。此外,它可以快速帮助企业管理API服务,提高API服务的稳定性和安全性。
Go
22
0
RuoYi-Vue3RuoYi-Vue3
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
950
557
risc-v64-naruto-pirisc-v64-naruto-pi
基于QEMU构建的RISC-V64 SOC,支持Linux,baremetal, RTOS等,适合用来学习Linux,后续还会添加大量的controller,实现无需实体开发板,即可学习Linux和RISC-V架构
C
19
5