Kubernetes Descheduler 服务配置与指标采集实践
2025-06-11 22:52:52作者:舒璇辛Bertina
背景介绍
Kubernetes Descheduler 是一个用于优化 Kubernetes 集群工作负载调度的工具,它通过重新平衡节点上的 Pod 分布来提高集群资源利用率。在实际生产环境中,监控 Descheduler 的运行状态和性能指标对于运维团队至关重要。
指标采集的常见挑战
许多团队使用 Datadog 等第三方监控工具来采集 Kubernetes 集群的指标数据。当这些工具尝试采集 Descheduler 的指标时,可能会遇到以下典型问题:
- 服务发现机制差异:Datadog 等工具通常通过 Service 来发现和采集 Pod 的指标
- Headless Service 限制:Descheduler 默认创建的 Headless Service(ClusterIP: None)不被某些监控工具支持
- 高可用模式下的指标采集:在 Descheduler 高可用部署时,需要确保只采集当前 Leader 的指标
解决方案分析
方案一:直接采集 Pod 指标
对于不支持 Headless Service 的监控系统,可以直接配置从 Pod 采集指标:
apiVersion: apps/v1
kind: Deployment
metadata:
name: descheduler
spec:
template:
metadata:
annotations:
ad.datadoghq.com/descheduler.checks: |
{
"openmetrics": {
"instances": [
{
"openmetrics_endpoint": "https://%%host%%:10258/metrics",
"namespace": "descheduler",
"metrics": [
"descheduler_pods_evicted",
{ "descheduler_descheduler_loop_duration_seconds": "descheduler_loop_duration_seconds" },
{ "descheduler_descheduler_strategy_duration_seconds": "descheduler_strategy_duration_seconds" }
],
"collect_histogram_buckets": true,
"histogram_buckets_as_distributions": true,
"tls_ca_cert": false,
"tls_verify": false,
"tls_ignore_warning": true
}
]
}
}
这种方式的优势在于:
- 不依赖 Service 发现机制
- 在高可用部署时,可以确保只采集当前 Leader Pod 的指标
- 配置灵活,可以精确控制采集哪些指标
方案二:修改 Service 类型
如果监控系统强制要求通过 Service 采集指标,可以修改 Descheduler 的 Service 配置:
apiVersion: v1
kind: Service
metadata:
name: descheduler-metrics
spec:
selector:
app: descheduler
ports:
- protocol: TCP
port: 10258
targetPort: 10258
type: ClusterIP
# 不设置 clusterIP: None
需要注意的是,这种方式在高可用部署时可能会导致指标采集不准确,因为请求会在多个 Pod 间轮询。
最佳实践建议
- 优先使用 Pod 注解方式:这是最可靠的方式,不受 Service 类型限制
- 关键指标监控:确保至少监控以下核心指标:
- Pod 驱逐数量(descheduler_pods_evicted)
- 调度循环持续时间(descheduler_loop_duration_seconds)
- 各策略执行时间(descheduler_strategy_duration_seconds)
- 安全配置:如果 Descheduler 启用了 TLS,需要在监控配置中正确处理证书验证
- 标签管理:为采集的指标添加适当的标签,便于后续分析和告警
总结
Kubernetes Descheduler 的指标采集可以根据实际监控系统的特性和集群部署方式选择不同的实现方案。理解这些方案的优缺点有助于运维团队构建稳定可靠的监控体系,确保能够及时发现和解决调度相关的问题。
登录后查看全文
热门项目推荐
相关项目推荐
atomcodeClaude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get StartedRust0211
cann-learning-hubCANN 学习中心仓,支持在线互动运行、边学边练,提供教程、示例与优化方案,一站式助力昇腾开发者快速上手。Jupyter Notebook0135
JoyAI-EchoJoyAI-Echo,这是一个独立的、仅用于推理的版本,旨在实现分钟级多镜头音视频生成。它采用了经过蒸馏的DMD生成器、配对的跨模态记忆以及故事级别的一致性。其性能的核心在于,一个跨模态视听记忆库能够在长达五分钟的视频中保持角色外观和语音音色的一致性。同时,一个训练后处理流程将基于记忆的强化学习与分布匹配蒸馏相结合,实现了7.5倍的速度提升,显著增强了视觉质量和对齐效果。00
GLM-5.2智谱开源 GLM-5.2,这是针对长文本任务的最新旗舰模型。相较于前代产品 GLM-5.1,它在长文本任务处理能力上实现了显著飞跃,并且首次在稳定的 100 万 token 上下文中提供这一能力。Jinja00
SwanLab⚡️SwanLab - an open-source, modern-design AI training tracking and visualization tool. Supports Cloud / Self-hosted use. Integrated with PyTorch / Transformers / LLaMA Factory / veRL/ Swift / Ultralytics / MMEngine / Keras etc.Python00
tiny-universe《大模型白盒子构建指南》:一个全手搓的Tiny-UniverseJupyter Notebook03
项目优选
收起
deepin linux kernel
C
32
16
暂无描述
Dockerfile
774
5.07 K
本项目是CANN提供的transformer类大模型算子库,实现网络在NPU上加速计算。
C++
871
2.01 K
openEuler内核是openEuler操作系统的核心,既是系统性能与稳定性的基石,也是连接处理器、设备与服务的桥梁。
C
468
461
Ascend Extension for PyTorch
Python
756
956
本项目是CANN提供的神经网络类计算算子库,实现网络在NPU上加速计算。
C++
695
1.39 K
本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。
C++
1.1 K
1.14 K
本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本,由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用,3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。
Dart
1.03 K
271
昇腾LLM分布式训练框架
Python
182
230
CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体,本仓库为其提供可复用的 Skills 模块。
Python
1.03 K
644