AWS EKS CloudWatch Observability插件默认容忍度优化解析

2025-06-08 14:07:50作者：魏献源Searcher

在AWS EKS（Elastic Kubernetes Service）平台上，CloudWatch Observability插件是用于集群监控和日志收集的重要组件。该插件包含两个核心部分：DaemonSet部署的监控代理（如CloudWatch Agent和Fluent Bit）以及Deployment部署的控制器管理器（Controller Manager）。近期社区反馈了一个关于该插件默认容忍度（Tolerations）配置的优化案例，值得Kubernetes运维人员关注。

问题背景

在Kubernetes调度机制中，容忍度（Tolerations）决定了Pod能否被调度到带有特定污点（Taints）的节点上。原版CloudWatch Observability插件（v3.0.0之前版本）对所有工作负载（包括Controller Manager）统一配置了宽泛的容忍度规则：

tolerations:
- operator: Exists

这种配置意味着：

所有插件Pod（包括Controller Manager）可以调度到任何具有污点的节点
在节点排水（Drain）过程中，Controller Manager可能被反复调度到正在排水的节点
导致集群维护操作时出现非预期行为

技术影响分析

这种配置对两类工作负载产生不同影响：

DaemonSet工作负载：

监控代理需要运行在所有节点上（包括带污点的专用节点）
宽泛的容忍度是合理的设计选择

Deployment工作负载：

Controller Manager作为控制平面组件，通常不需要特殊容忍度
过度容忍会导致：
- 可能调度到专用节点（如GPU节点）造成资源浪费
- 节点维护时产生调度冲突
- 违反最小权限原则

AWS的解决方案

在v3.0.0-eksbuild.1及后续版本中，AWS对该插件的容忍度配置进行了优化：

差异化配置：
- 保持DaemonSet的operator: Exists容忍度
- 移除Controller Manager的默认容忍度配置
升级影响：
- 现有集群升级后自动应用新配置
- 新创建集群直接使用优化后的配置
- 用户自定义容忍度配置仍具有最高优先级

运维建议

对于使用该插件的EKS用户，建议：

版本检查：

kubectl get daemonset -n amazon-cloudwatch -o wide
kubectl get deployment -n amazon-cloudwatch -o wide

升级策略：
- 生产环境建议升级到v3.0.0+
- 测试环境先验证业务兼容性

自定义配置：如需特殊容忍度需求，可通过AddOns配置覆盖：

tolerations:
  - key: "special-node"
    operator: "Equal"
    value: "true"
    effect: "NoSchedule"

架构设计启示

这个案例体现了Kubernetes组件设计的重要原则：

最小权限原则在调度策略中的体现
区分系统组件和工作负载组件的配置需求
云服务商对默认配置的持续优化

通过这次优化，AWS EKS进一步提升了CloudWatch Observability插件在复杂场景下的稳定性和可维护性，为大规模Kubernetes集群的运维提供了更好的基础保障。

containers-roadmap

This is the public roadmap for AWS container services (ECS, ECR, Fargate, and EKS).

项目地址：https://gitcode.com/gh_mirrors/co/containers-roadmap

登录后查看全文

项目优选

收起

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

461

455

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

Dart

1.02 K

266