KServe项目中的LLM推理自动伸缩方案：基于KEDA的原生集成

2025-06-16 00:16:28作者：史锋燃Gardner

在当今AI应用快速发展的背景下，大型语言模型(LLM)的推理服务面临着独特的伸缩性挑战。传统的基于请求级别的自动伸缩策略往往难以满足LLM推理的特殊需求，这促使KServe社区提出了与KEDA(Kubernetes Event-driven Autoscaling)的原生集成方案。

LLM推理的伸缩性挑战

LLM推理与传统服务最大的不同在于其计算特性。LLM推理是基于token级别的处理过程，而非简单的请求-响应模式。这种特性带来了几个关键指标：

首Token时间(TTFT)：用户获得第一个响应token的等待时间
每Token处理时间(TPOT)：生成每个输出token所需的时间
总体延迟：完整响应生成的总时间
吞吐量：系统每秒能处理的token总数
能耗指标：模型推理过程中的资源消耗情况

这些指标直接关系到用户体验和系统效率，但传统的Knative自动伸缩机制无法基于这些细粒度指标进行决策。

KEDA集成方案设计

KServe提出的解决方案是通过原生集成KEDA来实现更精细化的自动伸缩控制。KEDA作为Kubernetes的事件驱动自动伸缩控制器，特别适合处理基于自定义指标的伸缩场景。

技术实现要点

Prometheus指标支持：KEDA可以直接查询Prometheus中的自定义指标，如token吞吐量、能耗等
双模式支持：同时支持Serverless和Raw Deployment两种部署模式
声明式配置：通过InferenceService CRD扩展，用户可以直观地定义伸缩策略

配置示例

用户可以通过简单的YAML配置定义自动伸缩行为：

apiVersion: "serving.kserve.io/v1beta1"
kind: "InferenceService"
spec:
  predictor:
    scaleQuery: "average_token_throughput_per_second[1m]"
    scaleMetric: custom
    maxReplicas: 10
    minReplicas: 1

底层会自动生成对应的KEDA ScaledObject资源，实现基于指定指标的自动伸缩。

技术优势与价值

精细化控制：基于token级别的指标进行伸缩，更符合LLM推理特性
能效优化：结合Kepler的能耗指标，实现绿色计算
灵活性：支持多种自定义指标，适应不同场景需求
无缝集成：作为KServe原生功能，无需额外组件部署

未来展望

随着该功能的正式发布，LLM推理服务将能够实现更智能的资源分配和更高效的计算利用率。社区也在探索更多高级特性，如动态批处理大小调整等，以进一步提升系统性能。

这一创新为生产环境中的LLM服务部署提供了关键的基础设施支持，特别是在资源受限但需求波动的场景下，能够显著提升服务质量和成本效益。

kserve

Standardized Distributed Generative and Predictive AI Inference Platform for Scalable, Multi-Framework Deployment on Kubernetes

项目地址：https://gitcode.com/gh_mirrors/ks/kserve

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

KServe项目中的LLM推理自动伸缩方案：基于KEDA的原生集成

LLM推理的伸缩性挑战

KEDA集成方案设计

技术实现要点

配置示例

技术优势与价值

未来展望

热门内容推荐

最新内容推荐

项目优选

KServe项目中的LLM推理自动伸缩方案：基于KEDA的原生集成

LLM推理的伸缩性挑战

KEDA集成方案设计

技术实现要点

配置示例

技术优势与价值

未来展望

相关内容推荐

热门内容推荐

最新内容推荐

项目优选