Seldon Core v2.9.0 发布:模型推理与自动扩展能力全面升级
Seldon Core 是一个开源的机器学习部署平台,专注于帮助企业在 Kubernetes 上高效部署、管理和扩展机器学习模型。它提供了完整的模型服务生命周期管理能力,从模型部署到监控、AB测试和自动扩展等一应俱全。最新发布的 v2.9.0 版本带来了多项重要改进,特别是在模型推理性能、自动扩展能力和操作简化方面。
核心功能增强
推理响应流式传输
v2.9.0 版本引入了对 REST(通过 SSE)和 gRPC 的推理响应流式传输支持。这一功能特别适用于需要实时或渐进式返回结果的场景,如大型语言模型(LLM)的推理或生成式AI应用。通过流式传输,客户端可以逐步接收推理结果,而不必等待整个响应完成,显著改善了用户体验和系统响应感知。
技术实现上,这一功能需要 MLServer 1.6.0 或更高版本的支持。对于 REST 接口,采用了 Server-Sent Events(SSE)协议;而对于 gRPC,则利用了其原生的流式传输能力。开发人员现在可以构建更灵活的AI应用,如实时聊天机器人、逐步生成的内容系统等。
部分副本调度机制
新版本引入了创新的部分副本调度机制,显著改善了模型在自动扩展时的行为。这一机制的核心思想是:即使没有足够的推理服务器资源来满足全部副本请求,系统也会尽可能多地加载模型副本,确保服务持续可用。
该机制通过三个状态来管理模型可用性:
- 完全调度:所有请求的副本都已加载并可用
- 部分调度:可用副本数满足最小要求但未达目标
- 调度失败:无法满足最小副本要求
这种设计特别适合生产环境中资源波动的情况,确保服务在资源紧张时仍能保持基本可用性,同时随着资源释放自动恢复到最佳状态。
自动扩展能力革新
混合自动扩展模式
v2.9.0 实现了原生自动扩展与 Kubernetes HPA 的深度集成,形成了混合自动扩展模式。这种模式下:
- 用户只需配置单个 HPA 资源来控制模型副本数
- 系统自动根据模型副本需求调整底层推理服务器数量
- 支持多模型服务(MMS)场景
这种设计简化了运维复杂度,同时保持了扩展的灵活性。当模型需要扩展时,如果服务器资源不足,系统会自动增加服务器实例;当模型缩减时,空闲的服务器实例会被自动回收。
服务器资源打包(实验性)
作为实验性功能,v2.9.0 引入了服务器资源打包机制。该功能在模型缩减时,尝试将剩余模型重新分配到更少的服务器上,提高资源利用率。虽然当前版本默认禁用此功能,但它为未来的资源优化奠定了基础。
调度与资源管理优化
新版本改进了调度算法,现在会综合考虑模型的内存需求以及推理服务器配置中的并行工作线程数(如 MLServer 的 parallel_workers 或 Triton 的 instance_group 设置)。这种精细化的资源管理可以:
- 更准确地预估模型资源需求
- 避免因内存不足导致的调度失败
- 提高集群资源利用率
对于 Triton 推理服务器,目前仅考虑 KIND_CPU 类型的实例组,未来版本可能会扩展支持更多类型。
日志与可观测性改进
v2.9.0 统一了系统各组件的日志级别控制,包括:
- 内部组件日志级别集中配置
- Envoy 访问日志定制化支持
- Kafka 客户端日志级别适配
这些改进使得系统调试和监控更加便捷,特别是在复杂的生产环境中,管理员可以根据需要灵活调整日志详细程度,平衡可观测性和性能开销。
生产就绪性增强
新版本包含多项提升生产稳定性的改进:
- 修复了 Envoy 在模型滚动更新时的临时 503 错误
- 改进了 Prometheus 指标标签,确保实验场景下指标准确性
- 增强了 Model Gateway 的错误处理机制,避免静默失败
- 修复了 Scheduler Pod 规格覆盖的问题
这些改进共同提升了系统在生产环境中的稳定性和可靠性。
总结
Seldon Core v2.9.0 通过引入流式推理、智能调度和混合自动扩展等创新功能,显著提升了机器学习模型在生产环境中的服务能力和资源效率。这些改进不仅增强了系统功能,也简化了运维复杂度,使得企业能够更轻松地部署和管理大规模AI服务。
对于现有用户,所有 CRD 变更都保持了向后兼容性,确保平滑升级。新用户则可以从更完善的功能和文档中受益,快速构建高效的机器学习服务平台。随着这些功能的引入,Seldon Core 进一步巩固了其在 Kubernetes 机器学习部署领域的领先地位。
GLM-5智谱 AI 正式发布 GLM-5,旨在应对复杂系统工程和长时域智能体任务。Jinja00
GLM-5-w4a8GLM-5-w4a8基于混合专家架构,专为复杂系统工程与长周期智能体任务设计。支持单/多节点部署,适配Atlas 800T A3,采用w4a8量化技术,结合vLLM推理优化,高效平衡性能与精度,助力智能应用开发Jinja00- QQwen3.5-397B-A17BQwen3.5 实现了重大飞跃,整合了多模态学习、架构效率、强化学习规模以及全球可访问性等方面的突破性进展,旨在为开发者和企业赋予前所未有的能力与效率。Jinja00
Kimi-K2.5Kimi K2.5 是一款开源的原生多模态智能体模型,它在 Kimi-K2-Base 的基础上,通过对约 15 万亿混合视觉和文本 tokens 进行持续预训练构建而成。该模型将视觉与语言理解、高级智能体能力、即时模式与思考模式,以及对话式与智能体范式无缝融合。Python00
MiniMax-M2.5MiniMax-M2.5开源模型,经数十万复杂环境强化训练,在代码生成、工具调用、办公自动化等经济价值任务中表现卓越。SWE-Bench Verified得分80.2%,Multi-SWE-Bench达51.3%,BrowseComp获76.3%。推理速度比M2.1快37%,与Claude Opus 4.6相当,每小时仅需0.3-1美元,成本仅为同类模型1/10-1/20,为智能应用开发提供高效经济选择。【此简介由AI生成】Python00
ruoyi-plus-soybeanRuoYi-Plus-Soybean 是一个现代化的企业级多租户管理系统,它结合了 RuoYi-Vue-Plus 的强大后端功能和 Soybean Admin 的现代化前端特性,为开发者提供了完整的企业管理解决方案。Vue06- RRing-2.5-1TRing-2.5-1T:全球首个基于混合线性注意力架构的开源万亿参数思考模型。Python00
Qwen3.5Qwen3.5 昇腾 vLLM 部署教程。Qwen3.5 是 Qwen 系列最新的旗舰多模态模型,采用 MoE(混合专家)架构,在保持强大模型能力的同时显著降低了推理成本。00