GitHub Actions Runner Controller 中Runner无法启动问题深度解析

2025-06-08 01:41:50作者：翟江哲Frasier

actions-runner-controller

Kubernetes controller for GitHub Actions self-hosted runners

项目地址：https://gitcode.com/GitHub_Trending/ac/actions-runner-controller

问题现象

在GitHub Actions Runner Controller (ARC) 0.9.0和0.9.1版本中，用户报告了一个严重问题：工作流作业会卡在"Job is waiting for a runner from XXX to come online"状态，而实际上Runner Pod并未被创建。这个问题在0.8.3版本中不存在，但在升级到0.9.x版本后频繁出现。

技术背景

GitHub Actions Runner Controller是一个Kubernetes控制器，用于在K8s集群中管理自托管的GitHub Actions Runner。它通过监听GitHub的作业请求，动态创建和销毁Runner Pod来执行作业。核心组件包括：

Controller：主控制器，管理Runner的生命周期
Listener：监听GitHub作业请求
Runner Pod：实际执行作业的容器

问题详细分析

症状表现

作业长时间等待Runner，但无Runner Pod被创建
问题在集群频繁扩缩容时更容易出现（如AKS节点池动态调整）
临时解决方案是删除Listener Pod，强制重启后能暂时恢复
在0.8.3版本中完全不会出现此问题

日志分析

从用户提供的日志可以看出：

Controller在一段时间内完全无日志输出
当Listener被重启后，日志显示开始创建新的Runner Pod
在问题发生时，EphemeralRunnerSet的期望副本数显示为0，而实际上应该有Runner被创建

可能原因

根据技术分析，可能的原因包括：

Listener状态不一致：Listener可能因为网络问题或API限流导致与GitHub的同步状态不一致
控制器竞态条件：在频繁扩缩容场景下，控制器可能无法正确处理并发请求
资源配额问题：虽然用户确认无配额问题，但在动态扩缩容场景下可能出现临时资源不足
版本兼容性问题：0.9.x版本引入的新功能可能与某些集群配置不兼容

解决方案与验证

官方修复

在后续的0.9.2版本中，官方声称已修复此问题。用户验证表明：

0.9.2版本在大多数情况下工作正常
但在GitHub服务出现问题时仍可能受影响
48小时连续测试未发现问题重现

临时解决方案

版本回退：回退到0.8.3版本是最可靠的临时解决方案
Listener重启：删除Listener Pod强制重启可以临时恢复服务
完整清理重装：有用户报告完全卸载（包括CRD和命名空间）后重新安装可以解决问题

最佳实践建议

版本选择：生产环境建议使用经过验证的稳定版本（如0.8.3或0.9.2+）
监控配置：
- 监控Runner Pod创建延迟
- 设置Listener健康检查
- 监控GitHub API响应状态
资源规划：
- 确保有足够的资源缓冲应对突发负载
- 合理设置min和max Runner数量
升级策略：
- 先在测试环境验证新版本
- 准备快速回滚方案

技术深度解析

从架构角度看，此问题揭示了Runner Controller的几个关键设计考虑：

状态同步机制：Listener需要可靠地与GitHub和Controller同步状态
错误恢复能力：系统需要能够从网络中断或API错误中自动恢复
并发控制：在高负载场景下，控制器需要正确处理并发扩缩容请求

结论

GitHub Actions Runner Controller在0.9.x版本中引入的Runner创建问题是一个典型的分布式系统状态同步问题。通过版本升级或回退可以解决大多数情况。对于关键业务系统，建议：

使用经过充分验证的版本
实施全面的监控
准备应急响应方案
在升级前充分测试

随着项目的持续发展，这类问题有望在后续版本中得到更彻底的解决。用户社区和开发者的积极反馈是推动项目稳定的重要力量。

actions-runner-controller

Kubernetes controller for GitHub Actions self-hosted runners

项目地址：https://gitcode.com/GitHub_Trending/ac/actions-runner-controller

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

flutter_flutter

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理