在GitHub Actions Runner Controller中部署Docker-in-Docker模式Runner的常见问题解析

2025-06-08 09:03:02作者：咎岭娴Homer

GitHub Actions Runner Controller（ARC）是一个强大的工具，可以帮助用户在Kubernetes集群中管理和扩展自托管Runner。本文将重点讨论在ARC中部署Docker-in-Docker（dind）模式Runner时可能遇到的问题及其解决方案。

问题现象

用户在GKE Autopilot集群中部署dind模式的Runner时，遇到了Runner注册成功但作业无法分配的问题。具体表现为：

经过深入排查，发现问题主要源于以下几个方面：

GKE Autopilot限制：GKE Autopilot对Pod的安全策略有严格限制，特别是对于需要特权模式的容器。dind模式需要特权权限来运行Docker守护进程，这与Autopilot的安全策略冲突。
内核模块缺失：dind容器需要加载特定的内核模块（如bridge和br_netfilter），但在某些集群环境中这些模块可能不可用或无法加载。
权限配置不足：Runner容器可能缺乏必要的RBAC权限来创建和管理Pod资源。

针对上述问题，可以采取以下解决方案：

修改Runner配置：

template:
  spec:
    containers:
    - name: runner
      securityContext:
        privileged: false

内核模块预处理：
- 确保节点预装了所需内核模块
- 或者使用初始化容器预先加载模块
RBAC权限检查：
- 验证Runner使用的ServiceAccount是否具有创建Pod的权限
- 确保ClusterRoleBinding配置正确

环境验证：
- 先在标准Kubernetes集群中测试dind配置
- 确认基本功能正常后再迁移到受限环境
日志收集：
- 使用kubectl logs检查Controller和Listener日志
- 对Pending状态的Pod使用describe命令获取详细信息
渐进式部署：
- 先部署非dind模式Runner验证基础架构
- 再逐步引入dind功能
监控指标：
- 设置监控告警关注Runner创建失败情况
- 跟踪Pending状态的Runner数量变化