Bottlerocket OS v1.19.3版本中的Pod Attach间歇性问题分析

2025-05-25 10:02:04作者：舒璇辛Bertina

An operating system designed for hosting containers

项目地址：https://gitcode.com/gh_mirrors/bo/bottlerocket

在Bottlerocket OS v1.19.3版本中，用户报告了一个关于Kubernetes Pod Attach操作的间歇性问题。这个问题主要影响了使用该版本运行GitLab Runner CI作业的环境，导致部分作业在执行过程中出现超时失败。

问题现象

使用Bottlerocket v1.19.3 AMI（特别是bottlerocket-aws-k8s-1.24-x86_64-v1.19.3-f097c617）的用户发现，他们的GitLab Runner CI作业在执行过程中会出现异常挂起，最终因超时而失败。错误率约为0.7%，在8小时内影响了约175个作业。

典型的错误信息显示："prepare_script could not run to completion because the timeout was exceeded"，表明作业脚本无法在预定时间内完成执行。值得注意的是，当用户回退到v1.19.2版本后，这个问题就消失了。

技术背景

GitLab Runner在执行CI作业时，会使用kubectl attach命令与容器建立连接来运行构建脚本。这个attach操作依赖于底层的容器运行时（containerd）和Kubernetes API服务器的稳定交互。

问题根源

经过社区调查，这个问题与containerd中的一个已知问题有关。具体来说，是containerd在处理某些特定情况下的流连接时可能出现的问题。这个问题在containerd的后续版本中已经得到了修复，并且修复补丁已经向后移植到1.6.*和1.7.*版本系列中。

解决方案

Bottlerocket团队迅速响应，在v1.19.4版本中包含了这个问题的修复。该版本通过更新containerd组件，解决了Pod Attach操作的稳定性问题。对于遇到此问题的用户，升级到v1.19.4或更高版本即可解决。

最佳实践建议

对于运行关键工作负载的用户，建议：

在生产环境部署新版本前，先在测试环境中验证关键功能
建立完善的监控机制，及时发现类似的功能异常
保持关注Bottlerocket的版本更新公告，及时获取安全修复和功能改进

这个问题展示了开源社区协作的高效性，从问题报告到修复发布，整个过程体现了技术社区的快速响应能力。

An operating system designed for hosting containers

项目地址：https://gitcode.com/gh_mirrors/bo/bottlerocket

登录后查看全文

项目优选

收起

deepin linux kernel

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

昇腾LLM分布式训练框架

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。