Seldon Core v2.9.0 发布：模型推理与自动扩展能力全面升级

2025-06-12 14:45:21作者：江焘钦

Seldon Core 是一个开源的机器学习部署平台，专注于帮助企业在 Kubernetes 上高效部署、管理和扩展机器学习模型。它提供了完整的模型服务生命周期管理能力，从模型部署到监控、AB测试和自动扩展等一应俱全。最新发布的 v2.9.0 版本带来了多项重要改进，特别是在模型推理性能、自动扩展能力和操作简化方面。

核心功能增强

推理响应流式传输

v2.9.0 版本引入了对 REST（通过 SSE）和 gRPC 的推理响应流式传输支持。这一功能特别适用于需要实时或渐进式返回结果的场景，如大型语言模型（LLM）的推理或生成式AI应用。通过流式传输，客户端可以逐步接收推理结果，而不必等待整个响应完成，显著改善了用户体验和系统响应感知。

技术实现上，这一功能需要 MLServer 1.6.0 或更高版本的支持。对于 REST 接口，采用了 Server-Sent Events（SSE）协议；而对于 gRPC，则利用了其原生的流式传输能力。开发人员现在可以构建更灵活的AI应用，如实时聊天机器人、逐步生成的内容系统等。

部分副本调度机制

新版本引入了创新的部分副本调度机制，显著改善了模型在自动扩展时的行为。这一机制的核心思想是：即使没有足够的推理服务器资源来满足全部副本请求，系统也会尽可能多地加载模型副本，确保服务持续可用。

该机制通过三个状态来管理模型可用性：

完全调度：所有请求的副本都已加载并可用
部分调度：可用副本数满足最小要求但未达目标
调度失败：无法满足最小副本要求

这种设计特别适合生产环境中资源波动的情况，确保服务在资源紧张时仍能保持基本可用性，同时随着资源释放自动恢复到最佳状态。

自动扩展能力革新

混合自动扩展模式

v2.9.0 实现了原生自动扩展与 Kubernetes HPA 的深度集成，形成了混合自动扩展模式。这种模式下：

用户只需配置单个 HPA 资源来控制模型副本数
系统自动根据模型副本需求调整底层推理服务器数量
支持多模型服务（MMS）场景

这种设计简化了运维复杂度，同时保持了扩展的灵活性。当模型需要扩展时，如果服务器资源不足，系统会自动增加服务器实例；当模型缩减时，空闲的服务器实例会被自动回收。

服务器资源打包（实验性）

作为实验性功能，v2.9.0 引入了服务器资源打包机制。该功能在模型缩减时，尝试将剩余模型重新分配到更少的服务器上，提高资源利用率。虽然当前版本默认禁用此功能，但它为未来的资源优化奠定了基础。

调度与资源管理优化

新版本改进了调度算法，现在会综合考虑模型的内存需求以及推理服务器配置中的并行工作线程数（如 MLServer 的 parallel_workers 或 Triton 的 instance_group 设置）。这种精细化的资源管理可以：

更准确地预估模型资源需求
避免因内存不足导致的调度失败
提高集群资源利用率

对于 Triton 推理服务器，目前仅考虑 KIND_CPU 类型的实例组，未来版本可能会扩展支持更多类型。

日志与可观测性改进

v2.9.0 统一了系统各组件的日志级别控制，包括：

内部组件日志级别集中配置
Envoy 访问日志定制化支持
Kafka 客户端日志级别适配

这些改进使得系统调试和监控更加便捷，特别是在复杂的生产环境中，管理员可以根据需要灵活调整日志详细程度，平衡可观测性和性能开销。

生产就绪性增强

新版本包含多项提升生产稳定性的改进：

修复了 Envoy 在模型滚动更新时的临时 503 错误
改进了 Prometheus 指标标签，确保实验场景下指标准确性
增强了 Model Gateway 的错误处理机制，避免静默失败
修复了 Scheduler Pod 规格覆盖的问题

这些改进共同提升了系统在生产环境中的稳定性和可靠性。

总结

Seldon Core v2.9.0 通过引入流式推理、智能调度和混合自动扩展等创新功能，显著提升了机器学习模型在生产环境中的服务能力和资源效率。这些改进不仅增强了系统功能，也简化了运维复杂度，使得企业能够更轻松地部署和管理大规模AI服务。

对于现有用户，所有 CRD 变更都保持了向后兼容性，确保平滑升级。新用户则可以从更完善的功能和文档中受益，快速构建高效的机器学习服务平台。随着这些功能的引入，Seldon Core 进一步巩固了其在 Kubernetes 机器学习部署领域的领先地位。

seldon-core

An MLOps framework to package, deploy, monitor and manage thousands of production machine learning models

项目地址：https://gitcode.com/gh_mirrors/se/seldon-core

登录后查看全文