Actions Runner Controller 在 GitHub Enterprise 3.14.1 版本下的 Runner 注册问题分析与解决方案

2025-06-08 02:39:55作者：姚月梅Lane

问题背景

在使用 Actions Runner Controller (ARC) 项目部署自托管 Runner 时，用户遇到了与 GitHub Enterprise 3.14.1 版本的兼容性问题。主要症状表现为 Runner 无法成功注册，控制器日志中显示"RunnerScaleSetNotFoundException"错误，提示找不到标识符为12的Runner规模集。

问题分析

根本原因

经过深入分析，这个问题并非真正的版本兼容性问题，而是由于ARC资源清理不彻底导致的。具体表现为：

在重新安装ARC时，之前的安装残留了未完全清理的Custom Resources
这些残留资源保留了finalizers（终结器），阻止了Kubernetes的正常清理流程
新安装的ARC尝试使用相同的标识符注册Runner时，与残留资源产生冲突

技术细节

在Kubernetes中，finalizers是一种保护机制，确保资源在被删除前完成必要的清理工作。然而在某些情况下，特别是当控制器意外终止或删除操作被中断时，这些finalizers可能会被"卡住"，导致资源无法被完全删除。

在ARC的场景中，以下资源类型特别容易出现这个问题：

AutoscalingListeners
EphemeralRunners
RunnerScaleSets

解决方案

临时解决方案

对于已经出现问题的环境，可以手动清理残留资源：

首先检查所有相关的Custom Resources：

kubectl get AutoscalingListeners,EphemeralRunners,RunnerScaleSets -n <namespace>

移除这些资源的finalizers：

kubectl get AutoscalingListeners -n <namespace> -o name | xargs -I {} kubectl patch {} -n <namespace> -p '{"metadata":{"finalizers":null}}' --type=merge

对其他资源类型重复类似操作

最佳实践

为了避免此类问题，建议在升级或重新安装ARC时遵循以下步骤：

完全卸载现有安装：
```
helm uninstall <release-name>
```
等待所有资源被完全清理（可能需要几分钟）

确认命名空间中没有残留资源：

kubectl get all,AutoscalingListeners,EphemeralRunners,RunnerScaleSets -n <namespace>

确认可以删除命名空间（测试目的）：
```
kubectl delete namespace <namespace>
```
如果命名空间无法删除，说明仍有资源未清理，需要手动移除finalizers
确认清理完成后，再进行新版本的安装

预防措施

在升级ARC前，确保所有工作负载已完成
考虑在维护窗口期执行升级操作
监控卸载过程，确保所有资源被正确清理
对于生产环境，建议先在测试环境验证升级过程

总结

虽然这个问题表现为版本兼容性问题，但实际上是由于Kubernetes资源清理机制引起。理解Kubernetes的finalizer机制对于管理类似ARC这样的复杂Operator至关重要。通过遵循正确的卸载和安装流程，可以避免大多数此类问题。

对于未来版本，ARC团队已经意识到需要改进升级体验，可能会引入更健壮的清理机制和更明确的进度反馈，以帮助用户更好地管理生命周期操作。

actions-runner-controller

Kubernetes controller for GitHub Actions self-hosted runners

项目地址：https://gitcode.com/GitHub_Trending/ac/actions-runner-controller

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

leetcode

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

336

178