Seldon Core v2.9.0 发布:模型推理与自动扩展能力全面升级
Seldon Core 是一个开源的机器学习部署平台,专注于帮助企业在 Kubernetes 上高效部署、管理和扩展机器学习模型。它提供了完整的模型服务生命周期管理能力,从模型部署到监控、AB测试和自动扩展等一应俱全。最新发布的 v2.9.0 版本带来了多项重要改进,特别是在模型推理性能、自动扩展能力和操作简化方面。
核心功能增强
推理响应流式传输
v2.9.0 版本引入了对 REST(通过 SSE)和 gRPC 的推理响应流式传输支持。这一功能特别适用于需要实时或渐进式返回结果的场景,如大型语言模型(LLM)的推理或生成式AI应用。通过流式传输,客户端可以逐步接收推理结果,而不必等待整个响应完成,显著改善了用户体验和系统响应感知。
技术实现上,这一功能需要 MLServer 1.6.0 或更高版本的支持。对于 REST 接口,采用了 Server-Sent Events(SSE)协议;而对于 gRPC,则利用了其原生的流式传输能力。开发人员现在可以构建更灵活的AI应用,如实时聊天机器人、逐步生成的内容系统等。
部分副本调度机制
新版本引入了创新的部分副本调度机制,显著改善了模型在自动扩展时的行为。这一机制的核心思想是:即使没有足够的推理服务器资源来满足全部副本请求,系统也会尽可能多地加载模型副本,确保服务持续可用。
该机制通过三个状态来管理模型可用性:
- 完全调度:所有请求的副本都已加载并可用
- 部分调度:可用副本数满足最小要求但未达目标
- 调度失败:无法满足最小副本要求
这种设计特别适合生产环境中资源波动的情况,确保服务在资源紧张时仍能保持基本可用性,同时随着资源释放自动恢复到最佳状态。
自动扩展能力革新
混合自动扩展模式
v2.9.0 实现了原生自动扩展与 Kubernetes HPA 的深度集成,形成了混合自动扩展模式。这种模式下:
- 用户只需配置单个 HPA 资源来控制模型副本数
- 系统自动根据模型副本需求调整底层推理服务器数量
- 支持多模型服务(MMS)场景
这种设计简化了运维复杂度,同时保持了扩展的灵活性。当模型需要扩展时,如果服务器资源不足,系统会自动增加服务器实例;当模型缩减时,空闲的服务器实例会被自动回收。
服务器资源打包(实验性)
作为实验性功能,v2.9.0 引入了服务器资源打包机制。该功能在模型缩减时,尝试将剩余模型重新分配到更少的服务器上,提高资源利用率。虽然当前版本默认禁用此功能,但它为未来的资源优化奠定了基础。
调度与资源管理优化
新版本改进了调度算法,现在会综合考虑模型的内存需求以及推理服务器配置中的并行工作线程数(如 MLServer 的 parallel_workers 或 Triton 的 instance_group 设置)。这种精细化的资源管理可以:
- 更准确地预估模型资源需求
- 避免因内存不足导致的调度失败
- 提高集群资源利用率
对于 Triton 推理服务器,目前仅考虑 KIND_CPU 类型的实例组,未来版本可能会扩展支持更多类型。
日志与可观测性改进
v2.9.0 统一了系统各组件的日志级别控制,包括:
- 内部组件日志级别集中配置
- Envoy 访问日志定制化支持
- Kafka 客户端日志级别适配
这些改进使得系统调试和监控更加便捷,特别是在复杂的生产环境中,管理员可以根据需要灵活调整日志详细程度,平衡可观测性和性能开销。
生产就绪性增强
新版本包含多项提升生产稳定性的改进:
- 修复了 Envoy 在模型滚动更新时的临时 503 错误
- 改进了 Prometheus 指标标签,确保实验场景下指标准确性
- 增强了 Model Gateway 的错误处理机制,避免静默失败
- 修复了 Scheduler Pod 规格覆盖的问题
这些改进共同提升了系统在生产环境中的稳定性和可靠性。
总结
Seldon Core v2.9.0 通过引入流式推理、智能调度和混合自动扩展等创新功能,显著提升了机器学习模型在生产环境中的服务能力和资源效率。这些改进不仅增强了系统功能,也简化了运维复杂度,使得企业能够更轻松地部署和管理大规模AI服务。
对于现有用户,所有 CRD 变更都保持了向后兼容性,确保平滑升级。新用户则可以从更完善的功能和文档中受益,快速构建高效的机器学习服务平台。随着这些功能的引入,Seldon Core 进一步巩固了其在 Kubernetes 机器学习部署领域的领先地位。
AutoGLM-Phone-9BAutoGLM-Phone-9B是基于AutoGLM构建的移动智能助手框架,依托多模态感知理解手机屏幕并执行自动化操作。Jinja00
Kimi-K2-ThinkingKimi K2 Thinking 是最新、性能最强的开源思维模型。从 Kimi K2 开始,我们将其打造为能够逐步推理并动态调用工具的思维智能体。通过显著提升多步推理深度,并在 200–300 次连续调用中保持稳定的工具使用能力,它在 Humanity's Last Exam (HLE)、BrowseComp 等基准测试中树立了新的技术标杆。同时,K2 Thinking 是原生 INT4 量化模型,具备 256k 上下文窗口,实现了推理延迟和 GPU 内存占用的无损降低。Python00
GLM-4.6V-FP8GLM-4.6V-FP8是GLM-V系列开源模型,支持128K上下文窗口,融合原生多模态函数调用能力,实现从视觉感知到执行的闭环。具备文档理解、图文生成、前端重构等功能,适用于云集群与本地部署,在同类参数规模中视觉理解性能领先。Jinja00
HunyuanOCRHunyuanOCR 是基于混元原生多模态架构打造的领先端到端 OCR 专家级视觉语言模型。它采用仅 10 亿参数的轻量化设计,在业界多项基准测试中取得了当前最佳性能。该模型不仅精通复杂多语言文档解析,还在文本检测与识别、开放域信息抽取、视频字幕提取及图片翻译等实际应用场景中表现卓越。00
GLM-ASR-Nano-2512GLM-ASR-Nano-2512 是一款稳健的开源语音识别模型,参数规模为 15 亿。该模型专为应对真实场景的复杂性而设计,在保持紧凑体量的同时,多项基准测试表现优于 OpenAI Whisper V3。Python00
GLM-TTSGLM-TTS 是一款基于大语言模型的高质量文本转语音(TTS)合成系统,支持零样本语音克隆和流式推理。该系统采用两阶段架构,结合了用于语音 token 生成的大语言模型(LLM)和用于波形合成的流匹配(Flow Matching)模型。 通过引入多奖励强化学习框架,GLM-TTS 显著提升了合成语音的表现力,相比传统 TTS 系统实现了更自然的情感控制。Python00
Spark-Formalizer-X1-7BSpark-Formalizer 是由科大讯飞团队开发的专用大型语言模型,专注于数学自动形式化任务。该模型擅长将自然语言数学问题转化为精确的 Lean4 形式化语句,在形式化语句生成方面达到了业界领先水平。Python00