Bottlerocket OS中exec探针超时问题的分析与解决

2025-05-25 16:38:58作者：段琳惟

An operating system designed for hosting containers

项目地址：https://gitcode.com/gh_mirrors/bo/bottlerocket

问题背景

Bottlerocket OS是一个专为容器运行环境优化的开源操作系统。在最新的v1.19.3版本发布后，用户在使用Kubernetes时遇到了一个关键问题：exec类型的readiness和liveness探针会出现超时现象，导致Pod无法及时进入Ready状态。

问题现象

用户报告在使用Bottlerocket v1.19.3作为Kubernetes节点操作系统时，Redis StatefulSet的Pod需要15-30分钟才能变为Ready状态。这些Pod的readiness和liveness探针都是通过exec方式执行的Redis健康检查脚本，虽然手动执行这些脚本可以立即获得响应，但在Kubernetes探针机制下却频繁出现超时。

从Kubelet日志中可以看到大量"Failed to trigger a manual run"的错误信息，表明探针执行失败。值得注意的是，系统资源使用率并不高，排除了资源不足导致探针执行缓慢的可能性。

根本原因

经过社区调查，发现问题根源在于containerd 1.6.30版本中的一个已知问题。Bottlerocket v1.19.3恰好包含了这个containerd版本的更新，导致exec探针执行时出现超时现象。

containerd作为容器运行时，负责处理Kubernetes发出的exec请求。在这个特定版本中，exec操作的处理机制存在缺陷，使得某些情况下exec命令无法及时完成，触发了超时。

解决方案

Bottlerocket团队迅速响应，在v1.19.4版本中修复了这个问题。新版本包含了containerd的修复补丁，彻底解决了exec探针超时的问题。

对于遇到此问题的用户，建议采取以下措施：

立即升级到Bottlerocket v1.19.4或更高版本
如果暂时无法升级，可以回退到v1.19.2版本
在使用Karpenter等自动伸缩工具时，可以通过指定AMI ID的方式锁定使用稳定版本

技术启示

这个案例展示了容器生态系统中组件间依赖关系的重要性。一个底层运行时(containerd)的更新可能会对上层应用(Kubernetes探针)产生深远影响。作为系统管理员和开发者，我们需要：

密切关注组件更新日志和已知问题
在生产环境部署前进行充分的测试
建立有效的监控机制，及时发现类似问题
保持与开源社区的沟通，及时获取问题修复信息

通过这次事件，Bottlerocket社区展现了快速响应和解决问题的能力，为其他开源项目树立了良好榜样。

An operating system designed for hosting containers

项目地址：https://gitcode.com/gh_mirrors/bo/bottlerocket

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

flutter_flutter

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Ascend Extension for PyTorch

ohos_react_native

React Native鸿蒙化仓库