Elastic Cloud on Kubernetes中DaemonSet部署Elastic Agent的节点调度问题解析

2025-06-29 17:55:19作者：魏侃纯Zoe

背景介绍

在Kubernetes环境中使用Elastic Cloud on Kubernetes(ECK)部署Elastic Stack时，Elastic Agent通常以DaemonSet形式部署，以确保集群中每个节点都能运行监控代理。DaemonSet是Kubernetes中一种特殊的工作负载控制器，它会在集群中的每个节点上运行一个Pod副本。

问题现象

用户在使用ECK部署Elastic Agent时发现，实际运行的Agent Pod数量远少于集群节点总数。具体表现为：

集群共有14个节点
但只部署了6个Elastic Agent Pod（与Elasticsearch节点数量一致）
这导致部分节点的监控数据无法收集

根本原因分析

通过排查发现，这是由于Kubernetes节点的污点(Taint)机制导致的调度问题。在用户环境中：

部分节点被标记了特定污点（如karpenter/mongodb和karpenter/elastic）
这些污点的效果为NoSchedule，意味着默认情况下Pod不会被调度到这些节点
原始的Elastic Agent部署配置中缺少对应的容忍度(Toleration)设置

解决方案

要为Elastic Agent添加节点容忍度配置，需要在DaemonSet的Pod模板中明确声明：

spec:
  template:
    spec:
      tolerations:
      - key: "karpenter/mongodb"
        operator: "Exists"
        effect: "NoSchedule"
      - key: "karpenter/elastic"
        operator: "Exists"
        effect: "NoSchedule"

技术要点详解

Kubernetes污点与容忍度机制：
- 污点(Taint)是节点属性，可以阻止Pod调度
- 容忍度(Toleration)是Pod属性，允许Pod被调度到有特定污点的节点
- 两者配合可以实现精细的Pod调度控制
DaemonSet的特殊性：
- 作为系统级工作负载，通常需要访问所有节点
- 必须考虑集群中可能存在的各种调度限制
- 在复杂环境中需要显式配置容忍度
Elastic Agent的最佳实践：
- 生产环境中建议为所有可能的节点污点配置容忍度
- 可以结合节点亲和性(Node Affinity)实现更精细的控制
- 资源限制配置也需考虑节点特性差异

经验总结

在Kubernetes中部署系统级监控组件时，必须全面考虑集群的调度策略。特别是：

了解集群中所有节点的污点设置
为DaemonSet配置必要的容忍度
测试验证Pod是否确实在所有节点运行
监控组件本身的资源使用情况

通过正确配置，可以确保Elastic Agent能够覆盖所有集群节点，实现全面的监控数据收集，为集群运维提供完整的数据支持。

cloud-on-k8s

Elastic Cloud on Kubernetes

项目地址：https://gitcode.com/gh_mirrors/cl/cloud-on-k8s

登录后查看全文

Elastic Cloud on Kubernetes中DaemonSet部署Elastic Agent的节点调度问题解析

背景介绍

问题现象

根本原因分析

解决方案

技术要点详解

经验总结

热门内容推荐

最新内容推荐

项目优选

Elastic Cloud on Kubernetes中DaemonSet部署Elastic Agent的节点调度问题解析

背景介绍

问题现象

根本原因分析

解决方案

技术要点详解

经验总结

相关内容推荐

热门内容推荐

最新内容推荐

项目优选