GitHub Actions Runner Controller 中 Pod 终止问题的深度解析

2025-06-08 09:06:41作者：申梦珏Efrain

actions-runner-controller

Kubernetes controller for GitHub Actions self-hosted runners

项目地址：https://gitcode.com/GitHub_Trending/ac/actions-runner-controller

问题背景

在使用 GitHub Actions Runner Controller (ARC) 管理自托管运行器时，部分用户遇到了一个棘手的问题：某些运行器 Pod 在完成作业后未能正常终止，而是进入了"僵尸"状态持续运行。这种现象不仅消耗了集群资源，还可能导致后续作业调度问题。

问题现象

用户报告的主要表现为：

运行器 Pod 在作业完成后仍然保持运行状态
容器内部进程显示为 uninterruptible sleep (D 状态)
日志显示"Ephemeral runner container is still running"的重复信息
问题在长时间运行且输出较少的命令(如 terraform plan)时更为常见

根本原因分析

经过多方调查和 GCP 支持团队的确认，该问题的根源在于 Container-Optimized OS (COS) 特定版本中的一个内核级回归问题：

影响范围：涉及 COS 版本介于 cos-113-18244-236-26 和 cos-113-18244-236-70 之间
技术细节：问题与 io_uring 系统调用实现有关，这是一个 Linux 内核提供的异步 I/O 接口
触发条件：当 Node.js 应用或其他使用 io_uring 的进程执行时，可能会陷入不可中断的睡眠状态

解决方案

长期解决方案

升级 GKE 版本：
- 推荐升级到 1.30.9-gke.1009000 (cos-113-18244-291-3) 或更高版本
- 这些版本包含了针对 io_uring 问题的修复
降级方案：
- 临时降级到 1.30.6-gke.1596000 (COS 113-18244-236-26)
- 可以创建一个新的节点池专门用于运行 GitHub Actions 运行器

临时解决方案

对于无法立即升级的环境，可以采用以下临时措施：

Node.js 环境变量：
```
UV_USE_IO_URING=0
```
这个变量会强制 Node.js 不使用 io_uring 接口，转而使用传统的 I/O 方式
应用场景：
- 在 composite action 中设置全局变量
- 在 Jenkins 作业的环境变量中配置
- 在 Dockerfile 或容器启动参数中添加

最佳实践建议

版本管理：
- 定期更新 GKE 集群到稳定版本
- 关注 GCP 的发布说明，特别是涉及内核更新的内容
监控措施：
- 设置 Pod 生命周期监控，及时发现异常长运行的运行器
- 配置资源使用告警，防止僵尸 Pod 消耗过多资源
测试策略：
- 在非生产环境验证新版本后再进行生产部署
- 针对长时间运行作业进行专项测试

总结

GitHub Actions Runner Controller 的 Pod 终止问题本质上是一个底层基础设施问题，而非 ARC 本身的缺陷。通过理解问题的技术本质，运维团队可以采取针对性的解决措施。建议用户优先考虑升级到修复版本，同时在过渡期使用环境变量作为临时解决方案。

对于在其他云平台(如 AWS EKS)遇到类似问题的用户，虽然具体原因可能不同，但排查思路可以借鉴：检查内核版本、分析进程状态、考虑 I/O 子系统的影响因素等。

actions-runner-controller

Kubernetes controller for GitHub Actions self-hosted runners

项目地址：https://gitcode.com/GitHub_Trending/ac/actions-runner-controller

登录后查看全文

热门内容推荐

1 【亲测免费】开源项目 `build-your-own-x` 使用指南 2 【亲测免费】探索科技之旅：《Build Your Own X》项目详解 3 GitHub_Trending/bu/build-your-own-x自动化：CI/CD流程在自制项目中的应用 4 从零打造智能家居系统：用build-your-own-x实现家庭自动化

最新内容推荐

Degrees of Lewdity中文汉化终极指南：零基础玩家必看的完整教程 Unity游戏翻译神器：XUnity Auto Translator 完整使用指南 PythonWin7终极指南：在Windows 7上轻松安装Python 3.9+终极macOS键盘定制指南：用Karabiner-Elements提升10倍效率 Pandas数据分析实战指南：从零基础到数据处理高手 Qwen3-235B-FP8震撼升级：256K上下文+22B激活参数 7步搞定机械键盘PCB设计：从零开始打造你的专属键盘终极WeMod专业版解锁指南：3步免费获取完整高级功能 DeepSeek-R1-Distill-Qwen-32B技术揭秘：小模型如何实现大模型性能突破音频修复终极指南：让每一段受损声音重获新生

项目优选

收起

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

flutter_flutter

deepin linux kernel

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

ohos_react_native

React Native鸿蒙化仓库

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

cangjie_compiler

仓颉编译器源码及 cjdb 调试工具。