GitHub Actions Runner在SLES15镜像中的兼容性问题分析与解决方案

2025-06-08 20:31:17作者：何将鹤

问题背景

在使用GitHub Actions Runner Controller (ARC)部署自托管运行器时，用户遇到了一个与SUSE Linux Enterprise Server (SLES) 15 SP4镜像兼容性相关的问题。当尝试使用基于SLES15 SP4定制的Docker镜像作为运行器时，运行器无法正常连接到GitHub服务，并且出现资源消耗异常增加的情况。

问题现象

运行器Pod表现出以下异常行为：

连接GitHub服务不稳定，成功连接的情况极少
系统资源消耗急剧增加（CPU达到7.7核，内存高达39GB）
运行器进程不断重启，形成无限循环
日志中显示错误信息："wait: -f: invalid option"

根本原因分析

经过深入排查，发现问题出在运行器启动脚本run.sh中使用的wait命令参数上。具体原因包括：

命令兼容性问题：启动脚本中使用了wait -f命令，而SLES15系统自带的wait命令实现不支持-f参数
错误处理机制缺陷：当命令执行失败时，运行器没有正确的错误处理机制，导致不断重启
资源泄漏：每次重启都会累积资源消耗，最终导致系统资源耗尽

技术细节

在Linux系统中，wait命令通常用于等待进程完成。现代Linux发行版的wait命令支持-f参数，用于等待指定的作业完成。然而，SLES15使用的较旧版本的shell实现中，wait命令不支持这个参数。

启动脚本中的相关代码段会尝试使用wait -f来监控运行器进程，当这个命令失败时，整个启动流程就会中断，触发重启机制。

解决方案

目前有两种可行的解决方案：

修改启动脚本：在构建自定义镜像时，移除run.sh脚本中wait命令的-f参数
- 优点：简单直接，快速解决问题
- 注意点：需要评估移除参数后是否会影响运行器的某些功能
升级系统组件：更新SLES15系统中的shell实现
- 优点：从根本上解决问题
- 缺点：可能需要更复杂的系统维护