Actions Runner Controller中Ephemeral Runner创建失败问题分析

2025-06-08 21:49:01作者：齐冠琰

问题背景

在使用Actions Runner Controller（ARC）管理GitHub Actions自托管运行器时，用户遇到了一个典型问题：虽然AutoscalingRunnerSet资源显示当前运行器数量为5个，但实际上Kubernetes集群中并没有对应的Pod运行。这种情况表明ARC控制器与Kubernetes集群之间的协调出现了异常。

问题现象

从用户提供的日志和资源状态可以看出几个关键现象：

AutoscalingRunnerSet资源显示：
- 当前运行器数量：5
- 待处理运行器：4
- 失败运行器：1
Kubernetes集群中实际没有对应的Pod资源
控制器日志显示多个EphemeralRunner资源进入了Failed状态

根本原因分析

通过深入检查EphemeralRunner自定义资源的状态，发现了导致问题的直接原因：

spec:
  initContainers:
  - args:
    - dockerd
    - --host=unix:///var/run/docker.sock
    - --group=$(DOCKER_GROUP_GID)
    name: dind
    restartPolicy: OnFailure  # 这里使用了不支持的策略

关键问题在于initContainer配置中使用了不支持的restartPolicy值"OnFailure"。Kubernetes对initContainer的重启策略有严格限制，只支持"Always"这一种策略。

技术细节解析

InitContainer特性：
- InitContainer是Kubernetes中一种特殊容器，用于在主容器启动前执行初始化任务
- 与普通容器不同，initContainer不支持配置restartPolicy，其行为固定为"Always"
- 这种设计是因为initContainer必须成功完成才能启动主容器
ARC工作原理：
- ARC控制器根据AutoscalingRunnerSet配置创建EphemeralRunnerSet
- EphemeralRunnerSet负责管理实际的EphemeralRunner资源
- 每个EphemeralRunner对应一个Kubernetes Pod
- 当Pod创建失败时，EphemeralRunner会进入Failed状态
错误传播机制：
- 当前ARC版本(0.9.3)没有将Pod创建失败的具体原因记录到控制器日志
- 错误信息只保存在EphemeralRunner资源的状态中
- 这增加了故障排查的难度

解决方案

立即修复：修改Runner模板配置，移除initContainer中的restartPolicy设置：

initContainers:
- args:
  - dockerd
  - --host=unix:///var/run/docker.sock
  - --group=$(DOCKER_GROUP_GID)
  name: dind
  # 移除restartPolicy配置

长期改进：
- 建议ARC项目改进日志记录，将Pod创建失败的原因记录到控制器日志
- 可以考虑添加更严格的配置验证机制

最佳实践建议

配置检查：
- 在部署前使用kubectl dry-run验证配置
- 使用kubeval等工具验证Kubernetes资源定义
监控策略：
- 监控AutoscalingRunnerSet和EphemeralRunner资源的状态
- 设置告警规则检测Failed状态的运行器
调试技巧：
- 使用kubectl describe检查资源状态和事件
- 检查EphemeralRunner资源的status字段获取详细错误信息