Seldon Core v2.9.0 发布:模型推理与自动扩展能力全面升级
Seldon Core 是一个开源的机器学习部署平台,专注于帮助企业在 Kubernetes 上高效部署、管理和扩展机器学习模型。它提供了完整的模型服务生命周期管理能力,从模型部署到监控、AB测试和自动扩展等一应俱全。最新发布的 v2.9.0 版本带来了多项重要改进,特别是在模型推理性能、自动扩展能力和操作简化方面。
核心功能增强
推理响应流式传输
v2.9.0 版本引入了对 REST(通过 SSE)和 gRPC 的推理响应流式传输支持。这一功能特别适用于需要实时或渐进式返回结果的场景,如大型语言模型(LLM)的推理或生成式AI应用。通过流式传输,客户端可以逐步接收推理结果,而不必等待整个响应完成,显著改善了用户体验和系统响应感知。
技术实现上,这一功能需要 MLServer 1.6.0 或更高版本的支持。对于 REST 接口,采用了 Server-Sent Events(SSE)协议;而对于 gRPC,则利用了其原生的流式传输能力。开发人员现在可以构建更灵活的AI应用,如实时聊天机器人、逐步生成的内容系统等。
部分副本调度机制
新版本引入了创新的部分副本调度机制,显著改善了模型在自动扩展时的行为。这一机制的核心思想是:即使没有足够的推理服务器资源来满足全部副本请求,系统也会尽可能多地加载模型副本,确保服务持续可用。
该机制通过三个状态来管理模型可用性:
- 完全调度:所有请求的副本都已加载并可用
- 部分调度:可用副本数满足最小要求但未达目标
- 调度失败:无法满足最小副本要求
这种设计特别适合生产环境中资源波动的情况,确保服务在资源紧张时仍能保持基本可用性,同时随着资源释放自动恢复到最佳状态。
自动扩展能力革新
混合自动扩展模式
v2.9.0 实现了原生自动扩展与 Kubernetes HPA 的深度集成,形成了混合自动扩展模式。这种模式下:
- 用户只需配置单个 HPA 资源来控制模型副本数
- 系统自动根据模型副本需求调整底层推理服务器数量
- 支持多模型服务(MMS)场景
这种设计简化了运维复杂度,同时保持了扩展的灵活性。当模型需要扩展时,如果服务器资源不足,系统会自动增加服务器实例;当模型缩减时,空闲的服务器实例会被自动回收。
服务器资源打包(实验性)
作为实验性功能,v2.9.0 引入了服务器资源打包机制。该功能在模型缩减时,尝试将剩余模型重新分配到更少的服务器上,提高资源利用率。虽然当前版本默认禁用此功能,但它为未来的资源优化奠定了基础。
调度与资源管理优化
新版本改进了调度算法,现在会综合考虑模型的内存需求以及推理服务器配置中的并行工作线程数(如 MLServer 的 parallel_workers 或 Triton 的 instance_group 设置)。这种精细化的资源管理可以:
- 更准确地预估模型资源需求
- 避免因内存不足导致的调度失败
- 提高集群资源利用率
对于 Triton 推理服务器,目前仅考虑 KIND_CPU 类型的实例组,未来版本可能会扩展支持更多类型。
日志与可观测性改进
v2.9.0 统一了系统各组件的日志级别控制,包括:
- 内部组件日志级别集中配置
- Envoy 访问日志定制化支持
- Kafka 客户端日志级别适配
这些改进使得系统调试和监控更加便捷,特别是在复杂的生产环境中,管理员可以根据需要灵活调整日志详细程度,平衡可观测性和性能开销。
生产就绪性增强
新版本包含多项提升生产稳定性的改进:
- 修复了 Envoy 在模型滚动更新时的临时 503 错误
- 改进了 Prometheus 指标标签,确保实验场景下指标准确性
- 增强了 Model Gateway 的错误处理机制,避免静默失败
- 修复了 Scheduler Pod 规格覆盖的问题
这些改进共同提升了系统在生产环境中的稳定性和可靠性。
总结
Seldon Core v2.9.0 通过引入流式推理、智能调度和混合自动扩展等创新功能,显著提升了机器学习模型在生产环境中的服务能力和资源效率。这些改进不仅增强了系统功能,也简化了运维复杂度,使得企业能够更轻松地部署和管理大规模AI服务。
对于现有用户,所有 CRD 变更都保持了向后兼容性,确保平滑升级。新用户则可以从更完善的功能和文档中受益,快速构建高效的机器学习服务平台。随着这些功能的引入,Seldon Core 进一步巩固了其在 Kubernetes 机器学习部署领域的领先地位。
Kimi-K2.5Kimi K2.5 是一款开源的原生多模态智能体模型,它在 Kimi-K2-Base 的基础上,通过对约 15 万亿混合视觉和文本 tokens 进行持续预训练构建而成。该模型将视觉与语言理解、高级智能体能力、即时模式与思考模式,以及对话式与智能体范式无缝融合。Python00
GLM-4.7-FlashGLM-4.7-Flash 是一款 30B-A3B MoE 模型。作为 30B 级别中的佼佼者,GLM-4.7-Flash 为追求性能与效率平衡的轻量化部署提供了全新选择。Jinja00
VLOOKVLOOK™ 是优雅好用的 Typora/Markdown 主题包和增强插件。 VLOOK™ is an elegant and practical THEME PACKAGE × ENHANCEMENT PLUGIN for Typora/Markdown.Less00
PaddleOCR-VL-1.5PaddleOCR-VL-1.5 是 PaddleOCR-VL 的新一代进阶模型,在 OmniDocBench v1.5 上实现了 94.5% 的全新 state-of-the-art 准确率。 为了严格评估模型在真实物理畸变下的鲁棒性——包括扫描伪影、倾斜、扭曲、屏幕拍摄和光照变化——我们提出了 Real5-OmniDocBench 基准测试集。实验结果表明,该增强模型在新构建的基准测试集上达到了 SOTA 性能。此外,我们通过整合印章识别和文本检测识别(text spotting)任务扩展了模型的能力,同时保持 0.9B 的超紧凑 VLM 规模,具备高效率特性。Python00
KuiklyUI基于KMP技术的高性能、全平台开发框架,具备统一代码库、极致易用性和动态灵活性。 Provide a high-performance, full-platform development framework with unified codebase, ultimate ease of use, and dynamic flexibility. 注意:本仓库为Github仓库镜像,PR或Issue请移步至Github发起,感谢支持!Kotlin07
compass-metrics-modelMetrics model project for the OSS CompassPython00