KServe中initial-scale配置对滚动更新的影响分析

2025-06-15 10:11:38作者：蔡丛锟

Standardized Distributed Generative and Predictive AI Inference Platform for Scalable, Multi-Framework Deployment on Kubernetes

项目地址：https://gitcode.com/gh_mirrors/ks/kserve

背景介绍

在KServe项目的最新版本中，一个关于initial-scale配置的变更引发了滚动更新功能的异常。该问题源于将initial-scale默认值设置为与min-scale相同的数值，这直接影响了Knative的渐进式滚动更新(progressive rollout)机制的正常工作。

问题本质

initial-scale在Knative Serving中本应控制部署时初始创建的Pod数量，而Pod自动扩缩(Pod Autoscaler, PA)会随后接管Pod数量的动态调整。通常情况下，initial-scale应保持默认值1，这样Knative会认为只要有一个Pod成功启动，部署就算成功。PA随后会根据需要自动扩展Pod数量。

问题影响

当initial-scale被设置为与min-scale相同的数值时，会导致以下问题：

渐进式滚动更新失效：渐进式滚动更新需要分阶段逐步增加Pod数量，直接设置到min-scale会跳过这些中间阶段。
资源浪费风险：如果新版本存在问题(如Pod崩溃)，设置较高的initial-scale会导致立即创建多个可能失败的Pod，特别是对于GPU等昂贵计算资源。
与Knative扩展组件的兼容性问题：影响Knative渐进式滚动更新扩展组件的正常工作，该扩展需要2倍minReplica资源来执行滚动更新。

技术原理分析

在Knative的内部实现中，initial-scale的处理逻辑实际上是直接设置Deployment的初始副本数，而不是像文档描述的那样"自动选择initial-scale和lower bound中的较大值"。这一实现细节导致了文档描述与实际行为的不一致。

对于渐进式滚动更新场景，正确的行为应该是：

初始阶段只创建1个Pod
逐步增加Pod数量
最终达到minReplica设置的目标值

解决方案

经过社区讨论，决定恢复initial-scale的默认值为1，这符合Knative的最佳实践，也保证了与各种扩展组件的兼容性。这一变更已经通过PR合并到主分支。

经验总结

这个案例提醒我们：

配置默认值的选择需要考虑整个生态系统的兼容性
文档描述与实际实现可能存在差异，需要深入代码验证
对于关键配置变更，需要评估其对各种使用场景的影响

在微服务架构中，类似initial-scale这样的基础配置往往会影响多个组件的协同工作，变更时需要格外谨慎。

Standardized Distributed Generative and Predictive AI Inference Platform for Scalable, Multi-Framework Deployment on Kubernetes

项目地址：https://gitcode.com/gh_mirrors/ks/kserve

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

flutter_flutter

Oohos_react_native

React Native鸿蒙化仓库

昇腾LLM分布式训练框架

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统