Spark Operator 在 AKS 集群中部署问题解析与解决方案

2025-06-27 00:20:14作者：戚魁泉Nursing

问题背景

在使用 Kubernetes 上的 Spark Operator 时，用户反馈在 AKS (Azure Kubernetes Service) 集群中部署 Spark 应用时遇到了驱动 Pod 无法启动的问题。具体表现为：通过 Helm 安装 Spark Operator 后，提交的 Spark 应用（如 spark-pi 示例）没有创建驱动 Pod，也没有相关事件日志。

核心问题分析

经过技术讨论和排查，发现问题的根本原因在于 Spark Operator 的默认配置与用户部署方式不匹配。Spark Operator 默认只监控 default 命名空间中的 SparkApplication 资源，而用户将 Spark 应用部署在了 spark-operator 命名空间，导致 Operator 无法感知和处理这些应用。

解决方案详解

方案一：将 Spark 应用部署到 default 命名空间

最简单的解决方案是将 SparkApplication 资源创建在 default 命名空间中。这是 Spark Operator 的默认监控命名空间，无需额外配置即可工作。

方案二：自定义 Spark Operator 监控的命名空间

更灵活的解决方案是通过 Helm 安装时配置 spark.jobNamespaces 参数，指定 Operator 应该监控哪些命名空间：

helm install spark-operator spark-operator/spark-operator \
    --namespace spark-operator \
    --create-namespace \
    --set 'spark.jobNamespaces={ns1,ns2,ns3}'

这种配置方式允许：

将 Operator 本身部署在专用命名空间（如 spark-operator）
同时监控多个业务命名空间中的 Spark 应用
保持运维管理和业务应用的隔离性

最佳实践建议

命名空间规划：建议将 Spark Operator 部署在专用命名空间（如 spark-operator），而将 Spark 应用部署在业务命名空间中。
多租户支持：对于多团队环境，可以为每个团队分配独立的命名空间，并通过 spark.jobNamespaces 配置让 Operator 监控这些命名空间。
资源配额管理：在不同命名空间中设置合理的资源配额，避免 Spark 应用占用过多集群资源。
权限控制：利用 Kubernetes 的 RBAC 机制，为不同命名空间配置适当的访问权限。

常见问题排查步骤

当遇到 Spark 驱动 Pod 无法启动时，可以按照以下步骤排查：

检查 SparkApplication 资源状态：kubectl get sparkapplications
查看详细资源定义：kubectl get sparkapplication <name> -o yaml
确认 Operator 日志：kubectl logs -n spark-operator <operator-pod-name>
验证命名空间配置：检查 Helm 部署时的 spark.jobNamespaces 参数
检查服务账号权限：确保指定的 serviceAccount 有足够权限

总结

Spark Operator 的命名空间配置是部署时需要特别注意的关键参数。通过合理配置 spark.jobNamespaces，可以实现灵活的部署架构，既保持运维组件的隔离性，又支持多团队多项目的 Spark 应用部署。对于 AKS 或其他云平台的 Kubernetes 服务，这一配置原则同样适用。

spark-operator

Kubernetes operator for managing the lifecycle of Apache Spark applications on Kubernetes.

项目地址：https://gitcode.com/gh_mirrors/sp/spark-operator

登录后查看全文