Kubeflow Spark-Operator 在GKE上运行结构化流作业的权限问题分析

2025-06-27 20:35:02作者：袁立春Spencer

Kubernetes operator for managing the lifecycle of Apache Spark applications on Kubernetes.

项目地址：https://gitcode.com/gh_mirrors/sp/spark-operator

问题背景

在使用Kubeflow Spark-Operator（版本1.1.27）在Google Kubernetes Engine（GKE）集群上运行结构化流作业时，开发人员遇到了一个看似与Kafka数据读取无关的权限错误。该作业设计为每10分钟运行一次，从Kafka主题读取数据并进行处理。

错误现象

作业执行时抛出403 Forbidden错误，具体错误信息显示服务账号spark-gcs-access@versa-kafka-poc.iam.gserviceaccount.com缺少storage.buckets.create权限。这个错误看似与作业实际执行的Kafka数据读取操作无关，因为错误发生在尝试创建存储桶时，而代码逻辑是读取Kafka数据。

技术分析

1. 错误根源

虽然表面上看是存储权限问题，但实际上这与Spark结构化流作业的检查点机制有关。在Spark结构化流中，checkpointLocation参数指定的位置用于保存作业状态和进度信息。当Spark尝试访问这个位置时，如果该位置不存在，它会尝试创建所需的存储资源。

2. 检查点机制的重要性

检查点在Spark流处理中扮演着关键角色：

保存流处理的进度信息
记录已处理数据的偏移量
在作业失败或重启时提供恢复点
维护状态信息（对于有状态操作）

3. 权限配置问题

在GKE环境中，Spark作业运行时会使用指定的服务账号访问GCS存储。当检查点位置指向GCS路径时，服务账号需要以下权限：

storage.objects.create（创建对象）
storage.objects.get（读取对象）
storage.objects.list（列出对象）
storage.buckets.get（获取存储桶信息）

如果检查点路径指向的存储桶不存在，Spark会尝试创建它，这时就需要storage.buckets.create权限。

解决方案

1. 权限配置

为服务账号添加适当的GCS权限是最直接的解决方案：

如果检查点存储桶已存在，只需添加对象级权限
如果允许自动创建存储桶，则需要添加项目级的storage.buckets.create权限

在实际案例中，通过为服务账号添加roles/storage.admin角色解决了问题。

2. 最佳实践建议

预先创建检查点存储桶并设置适当权限
使用最小权限原则，只授予必要的权限
对于生产环境，考虑使用自定义角色而非预定义的管理员角色
明确区分数据存储和检查点存储的权限

3. 其他潜在问题

在调试过程中还发现了一个与卷挂载相关的问题（MountVolume.SetUp failed for volume "spark-conf-volume-driver"），这表明在Kubernetes环境中运行Spark作业时，还需要确保：

配置卷正确挂载
服务账号具有适当的Kubernetes RBAC权限
资源请求和限制设置合理

总结

在GKE上使用Kubeflow Spark-Operator运行结构化流作业时，权限配置需要全面考虑作业的各个方面，包括：

数据源访问权限（如Kafka）
检查点存储权限
Kubernetes集群操作权限
可能的中间结果存储权限

特别是当使用托管服务时，服务账号的权限配置往往是这类问题的常见根源。开发人员应该仔细审查作业的所有存储需求，并确保服务账号具有执行这些操作所需的权限。

Kubernetes operator for managing the lifecycle of Apache Spark applications on Kubernetes.

项目地址：https://gitcode.com/gh_mirrors/sp/spark-operator

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

ohos_react_native

React Native鸿蒙化仓库

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

cangjie_compiler

仓颉编译器源码及 cjdb 调试工具。