AIBrix项目中模型探针配置导致Pod重启问题分析

2025-06-23 05:31:21作者：蔡丛锟

问题背景

在AIBrix项目(一个基于vLLM的Kubernetes模型部署框架)的快速入门示例中，用户发现部署的Deepseek-r1-distill-llama-8b模型Pod会频繁重启。经过排查，这是由于Kubernetes的存活探针(Liveness Probe)和就绪探针(Readiness Probe)配置不当导致的典型问题。

问题现象

当用户按照AIBrix项目的快速入门指南部署模型时，Pod会在模型下载完成前就被Kubernetes重启。通过查看Pod日志和事件，可以观察到以下现象：

Pod启动后立即开始下载大模型文件
在下载过程中，Kubernetes探针检测失败
Kubernetes认为容器不健康，触发Pod重启
重启后重复上述过程，形成恶性循环

技术分析

探针机制原理

Kubernetes提供了两种重要的健康检查机制：

存活探针(Liveness Probe)：检测容器是否正在运行。如果失败，kubelet会杀死容器并根据重启策略决定是否重启。
就绪探针(Readiness Probe)：检测容器是否准备好接收流量。如果失败，Endpoint控制器会从Service的负载均衡中移除该Pod的IP地址。

问题根源

在AIBrix的快速入门示例中，探针配置存在两个关键问题：

初始延迟(initialDelaySeconds)设置过短：没有给模型下载留出足够时间
超时时间(timeoutSeconds)可能不合理：大模型初始化需要较长时间

对于像Deepseek-r1-distill-llama-8b这样的大型模型，从镜像仓库下载可能需要数分钟时间，而默认的探针配置往往假设服务能在几十秒内就绪。

解决方案

针对这类问题，推荐以下解决方案：

适当延长初始延迟：根据模型大小，将initialDelaySeconds设置为300-600秒
调整探针检测间隔：增大periodSeconds减少检测频率
使用启动探针(Startup Probe)：Kubernetes 1.16+版本支持启动探针，专门用于处理启动时间长的容器

修正后的探针配置示例：

livenessProbe:
  initialDelaySeconds: 360
  periodSeconds: 20
  timeoutSeconds: 10
  failureThreshold: 3
  successThreshold: 1
readinessProbe:
  initialDelaySeconds: 360
  periodSeconds: 20
  timeoutSeconds: 10
  failureThreshold: 3
  successThreshold: 1