Actions Runner Controller中minRunners参数失效问题分析与解决方案

2025-06-08 15:10:55作者：钟日瑜

actions-runner-controller

Kubernetes controller for GitHub Actions self-hosted runners

项目地址：https://gitcode.com/GitHub_Trending/ac/actions-runner-controller

问题背景

在使用GitHub Actions Runner Controller（ARC）管理自托管运行器时，用户遇到了minRunners参数不被遵守的问题。具体表现为：虽然配置了minRunners: 6，但系统运行一段时间后，空闲运行器数量会无故减少到2个，与预期的最小6个运行器不符。

技术分析

配置参数解析

ARC提供了两个关键参数控制运行器数量：

minRunners：定义空闲状态时应保持的最小运行器数量
maxRunners：定义可扩展到的最大运行器数量

在标准情况下，ARC会根据当前作业负载自动调整运行器数量，但应始终保证至少有minRunners个运行器处于就绪状态。

问题根源

通过日志分析和技术讨论，发现该问题可能由以下几个原因导致：

Kubernetes资源残留：当使用SPOT实例（如AWS的Ocean）时，可能因节点回收导致运行器作业卡在CRD（Custom Resource Definition）中未被正确清理
运行器失败累积：当单个运行器Pod失败超过5次时，ARC会清理该Pod但保留EphemeralRunner资源用于故障诊断，这可能导致控制器统计的运行器数量与实际Pod数量不一致
最终器（Finalizer）问题：资源删除时可能因最终器阻塞导致资源未被完全清理

解决方案

彻底清理残留资源

首先卸载所有ARC相关Helm chart
手动检查并清理所有残留的EphemeralRunner资源
使用--merge参数更新CRD的finalizer设置
确认所有相关资源已被完全删除

配置优化建议

对于生产环境，建议使用On-Demand节点而非SPOT实例，以提高稳定性
定期检查EphemeralRunner资源状态，确保没有失败累积
监控ARC控制器日志，关注运行器数量计算决策过程

实施效果

经过上述清理和配置调整后，系统已稳定运行一周以上，minRunners参数能够被正确遵守，运行器数量始终保持在配置的最小值以上。

经验总结

ARC作为GitHub Actions自托管运行器的管理工具，在复杂Kubernetes环境中可能会遇到资源管理问题。特别是在使用弹性节点池时，需要特别注意：

资源清理机制可能因节点回收而中断
控制器统计逻辑与实际资源状态可能存在差异
定期维护和监控是保证系统稳定运行的关键

通过这次问题排查，我们认识到在云原生环境下，资源生命周期管理的重要性，以及理解控制器内部工作机制对于问题诊断的价值。

actions-runner-controller

Kubernetes controller for GitHub Actions self-hosted runners

项目地址：https://gitcode.com/GitHub_Trending/ac/actions-runner-controller

登录后查看全文

热门内容推荐

1 【亲测免费】开源项目 `build-your-own-x` 使用指南 2 【亲测免费】探索科技之旅：《Build Your Own X》项目详解 3 GitHub_Trending/bu/build-your-own-x自动化：CI/CD流程在自制项目中的应用 4 从零打造智能家居系统：用build-your-own-x实现家庭自动化

最新内容推荐

Degrees of Lewdity中文汉化终极指南：零基础玩家必看的完整教程 Unity游戏翻译神器：XUnity Auto Translator 完整使用指南 PythonWin7终极指南：在Windows 7上轻松安装Python 3.9+终极macOS键盘定制指南：用Karabiner-Elements提升10倍效率 Pandas数据分析实战指南：从零基础到数据处理高手 Qwen3-235B-FP8震撼升级：256K上下文+22B激活参数 7步搞定机械键盘PCB设计：从零开始打造你的专属键盘终极WeMod专业版解锁指南：3步免费获取完整高级功能 DeepSeek-R1-Distill-Qwen-32B技术揭秘：小模型如何实现大模型性能突破音频修复终极指南：让每一段受损声音重获新生

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

openGauss-server

openGauss kernel ~ openGauss is an open source relational database management system

flutter_flutter

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。