Actions Runner Controller 中控制器创建 Runner Pod 延迟问题分析与解决方案

2025-06-08 16:40:22作者：鲍丁臣Ursa

问题现象

在 GitHub Actions 自托管运行器管理系统中，用户报告了一个关键性能问题：当通过 Actions Runner Controller (ARC) 创建 Runner Pod 时，出现了严重的延迟现象。具体表现为：

从 GitHub 作业触发到 Runner Pod 实际创建之间存在 10-15 分钟的延迟
控制器日志显示每个操作步骤之间存在约 5 分钟的间隔
实际作业执行时间仅占整个过程的很小部分（约 3 分钟）
问题在负载较高的集群中更为明显

技术背景

Actions Runner Controller 是用于管理 GitHub Actions 自托管运行器的 Kubernetes 控制器。它通过以下组件协同工作：

控制器（Controller）：核心逻辑单元，负责处理 GitHub 的 webhook 事件
监听器（Listener）：接收 GitHub 的作业请求
Runner Pod：实际执行作业的 Kubernetes Pod

在正常工作流程中，当 GitHub 作业触发时，系统应该在秒级完成 Pod 创建和作业分配。

问题诊断

通过对日志和系统状态的分析，可以识别出几个关键点：

事件处理延迟：从作业触发到控制器开始处理存在明显延迟
资源瓶颈迹象：问题在负载较高的集群中更为频繁
版本相关性：问题在 0.8.3 版本中较为突出
网络连接问题：升级后出现间歇性的 GitHub API 连接问题

根本原因

综合技术分析，延迟问题可能由以下因素共同导致：

控制器资源不足：默认资源配置无法应对高负载场景
处理效率问题：0.8.3 版本在处理大量请求时存在性能瓶颈
请求积压：高负载情况下容易形成处理队列积压
网络波动：与 GitHub 服务的连接稳定性影响整体流程

解决方案与验证

用户采取了以下措施并观察到改进：

版本升级：从 0.8.3 升级到 0.9.3 版本
- 新版本改进了处理效率
- 初步观察显示延迟问题得到缓解
资源调整：
- 为控制器配置更高的 CPU 和内存限制
- 防止资源竞争导致的处理延迟
连接问题处理：
- 确认部分连接问题与 GitHub 服务状态相关
- 实施重试机制应对临时性网络问题

最佳实践建议

基于此案例，建议采取以下措施优化 ARC 部署：

容量规划：
- 根据预期负载适当配置控制器资源
- 监控控制器资源使用情况，及时调整
版本管理：
- 保持 ARC 版本更新，获取性能改进
- 关注版本变更日志中的性能相关修复
监控体系：
- 实现从作业触发到完成的全链路监控
- 设置关键指标告警（如 Pod 创建时间）
灾备设计：
- 针对 GitHub 服务中断设计容错机制
- 考虑多区域部署提高可用性

总结

ARC 系统中的延迟问题通常是由多方面因素共同作用导致的。通过系统性分析、版本升级和资源配置优化，可以有效解决此类性能问题。对于生产环境部署，建议建立完善的监控体系和容量规划流程，确保系统能够稳定高效地处理各类工作负载。

actions-runner-controller

Kubernetes controller for GitHub Actions self-hosted runners

项目地址：https://gitcode.com/GitHub_Trending/ac/actions-runner-controller

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

nop-entropy

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

350

203

pytorch

Ascend Extension for PyTorch

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理