Harvester CSI Driver 控制器部署优化：控制平面节点专属调度机制解析

2025-06-15 22:01:29作者：段琳惟

背景与问题分析

在 Kubernetes 生态系统中，CSI（Container Storage Interface）驱动是实现存储功能的关键组件。Harvester 作为基于 Kubernetes 构建的分布式存储解决方案，其 CSI 驱动控制器负责管理存储卷的生命周期操作。在早期版本中，Harvester CSI 驱动控制器的部署存在两个显著问题：

调度目标不明确：控制器 Pod 可能被调度到工作节点（worker node）上运行，而工作节点通常不具备运行关键控制平面组件的条件
副本数量固定：无论集群控制平面节点数量多少，控制器都固定部署 3 个副本，导致单节点上可能运行多个控制器实例

这些问题不仅影响系统资源利用率，还可能对集群稳定性造成潜在风险。

技术解决方案

节点亲和性调度

核心解决方案是引入节点亲和性（Node Affinity）规则，确保 CSI 控制器只部署在具有控制平面角色的节点上。具体实现使用标准的 Kubernetes 控制平面节点标签：

affinity:
  nodeAffinity:
    requiredDuringSchedulingIgnoredDuringExecution:
      nodeSelectorTerms:
      - matchExpressions:
        - key: node-role.kubernetes.io/control-plane
          operator: Exists

这一配置确保了 Pod 只会被调度到带有 node-role.kubernetes.io/control-plane 标签的节点上，有效避免了控制器在工作节点或 etcd 节点上运行的情况。

Pod 反亲和性优化

虽然不在本次主要优化范围内，但值得注意的配套优化是 Pod 反亲和性（Pod Anti-Affinity）设置：

podAntiAffinity:
  preferredDuringSchedulingIgnoredDuringExecution:
  - weight: 100
    podAffinityTerm:
      labelSelector:
        matchExpressions:
        - key: app.kubernetes.io/name
          operator: In
          values: [harvester-csi-driver]
        - key: component
          operator: In
          values: [csi-controllers]
      topologyKey: kubernetes.io/hostname

这种配置虽然不是强制的（使用 preferred 而非 required），但能尽量将控制器实例分散到不同节点，提高可用性。

实现效果验证

在实际测试中，该优化方案展现出以下特性：

精确调度：所有控制器实例都严格运行在控制平面节点上，即使通过命令强制扩展副本数量到 10 个，也不会出现工作节点或 etcd 节点运行控制器的情况
健康状态：所有控制器 Pod 均保持正常运行状态（3/3 Ready），没有因调度策略变更引入新的稳定性问题
分布均衡：当有多个控制平面节点时，控制器实例会自动均衡分布，不会集中在单一节点

技术考量与未来方向

虽然当前方案解决了核心调度问题，但在生产环境中还有进一步优化的空间：

动态副本调整：理想情况下，控制器副本数应与控制平面节点数量动态适配，避免资源浪费。这可能需要引入自动伸缩机制或专用控制器
资源隔离：考虑为 CSI 控制器配置资源请求和限制，确保其不会与控制平面其他关键组件争抢资源
故障转移策略：完善控制器 Pod 的优先级和抢占配置，确保存储相关操作在节点故障时能快速恢复

总结

通过对 Harvester CSI Driver 控制器部署策略的优化，显著提升了集群的资源利用率和系统稳定性。这一改进不仅符合 Kubernetes 最佳实践，也为后续可能的自动扩缩容功能奠定了基础。对于运维人员而言，理解这些调度机制有助于更好地规划和维护生产环境中的存储基础设施。

登录后查看全文

项目优选

收起

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

deepin linux kernel

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。