Kubeflow KFServing 实现基于 KEDA 的 LLM 推理自动扩缩容方案

2025-06-16 14:37:54作者：翟萌耘Ralph

在当今大规模语言模型（LLM）应用场景中，高效的推理服务自动扩缩容能力至关重要。传统的基于请求级别的扩缩容指标（如 Knative 提供的）往往难以满足 LLM 推理的特殊需求，因为 LLM 推理是在 token 级别进行的，需要更精细的监控指标来指导扩缩容决策。

技术挑战与解决方案

LLM 推理服务具有独特的性能特征，传统的 HTTP 请求级别指标无法准确反映实际负载情况。主要面临以下挑战：

token 级别的处理特性：LLM 推理不是简单的请求-响应模式，而是涉及输入 token 处理和输出 token 流式生成
复杂的性能指标：需要综合考虑首 token 延迟、输出 token 生成速度、总体延迟和吞吐量等指标
能效考量：在大规模部署时，还需要考虑能耗指标以实现绿色计算

KFServing 团队提出的解决方案是原生集成 KEDA（Kubernetes Event-driven Autoscaling），通过 Prometheus 指标实现细粒度的自动扩缩容。这一方案具有以下技术优势：

核心监控指标体系

为实现有效的 LLM 推理扩缩容，需要建立以下关键性能指标：

首 Token 时间（TTFT）：衡量用户等待第一个响应 token 的时间，直接影响交互体验
输出 Token 时间（TPOT）：每个输出 token 的生成时间，决定用户感知的响应速度
总体延迟：完整响应生成时间，计算公式为 TTFT + TPOT × 输出 token 数量
吞吐量：系统每秒能够处理的总输出 token 数
能耗指标：通过 Kepler 项目提供的容器级能耗数据

架构设计与实现

KFServing 通过两种部署模式支持 KEDA 集成：

1. Serverless 模式

利用 Knative 社区正在开发的 serving-keda 扩展，实现基于 KEDA 的 serverless 扩缩容。这种模式下，KFServing 可以：

动态调整副本数以响应 token 吞吐量变化
根据能耗指标实现能效优化的扩缩容
提供细粒度的性能与成本平衡

2. 原生部署模式

对于不使用 Knative 的原始部署，KFServing 控制器直接管理 KEDA 的 ScalerObject 资源。用户可以通过 InferenceService CRD 指定扩缩容查询指标：

apiVersion: "serving.kserve.io/v1beta1"
kind: "InferenceService"
spec:
  predictor:
    scaleQuery: "average_token_throughput_per_second[1m]"
    scaleMetric: custom
    maxReplicas: 10
    minReplicas: 1

对应的 KEDA ScaleObject 配置示例：

apiVersion: keda.sh/v1alpha1
kind: ScaleObject
spec:
  scaleTargetRef:
    apiVersion: apps/v1
    kind: Deployment
  triggers:
    - type: prometheus
      metadata:
        metricName: average_token_per_second
        query: average_token_per_second[1m]
        threshold: "500"