Spark Operator 教程

2024-09-22 09:46:51作者：平淮齐Percy

1. 项目介绍

Spark Operator 是 Kubernetes 上 Apache Spark 应用的管理和调度工具，它提供了一种简单、声明式的方式来指定、运行和监控 Spark 应用程序。Spark Operator 使用 Kubernetes 自定义资源（CRD）来定义和管理 Spark 应用，支持 Spark 2.3 及以上版本，并且能够与 Kubernetes 的特性无缝集成，如 cron job、配置映射和持久卷等。

2. 项目快速启动

2.1 环境准备

在开始之前，请确保您的 Kubernetes 集群版本 >= 1.16，并且已经配置好 kubectl 命令行工具。

2.2 安装 Spark Operator

克隆 Spark Operator 仓库：

git clone https://github.com/kubeflow/spark-operator.git
cd spark-operator

创建自定义资源定义（CRD）：

kubectl apply -f config/crd/bases/sparkoperator.k8s.io_sparkapplications.yaml
kubectl apply -f config/crd/bases/sparkoperator.k8s.io_scheduledsparkapplications.yaml

启动 Spark Operator：

kubectl apply -f deploy/operator.yaml

3. 应用案例和最佳实践

3.1 简单的 Spark 应用

以下是一个简单的 Spark 应用示例，它使用了 Spark Operator：

apiVersion: sparkoperator.k8s.io/v1beta2
kind: SparkApplication
metadata:
  name: pi
spec:
  type: Python
  mode: cluster
  image: "us-docker.pkg.dev/kubeflow-ci/spark-operator:latest"
  pythonVersion: "3"
  mainApplicationFile: local:///opt/spark/examples/src/main/python/pi.py
  sparkVersion: "3.1.1"
  conf:
    spark.app.name: "Spark Pi"
    spark.master: k8s://https://<k8s-api-server>:<k8s-api-server-port>
    spark.submit.deployMode: cluster
  driver:
    cores: 1
    coreLimit: "1200m"
    memory: "512m"
    labels:
      version: "v1"
  executor:
    cores: 1
    instances: 1
    memory: "512m"
    labels:
      version: "v1"

3.2 定时 Spark 应用

以下是一个定时 Spark 应用的示例：

apiVersion: sparkoperator.k8s.io/v1beta2
kind: ScheduledSparkApplication
metadata:
  name: scheduled-pi
spec:
  schedule: "*/1 * * * *"
  job:
    type: Python
    mode: cluster
    image: "us-docker.pkg.dev/kubeflow-ci/spark-operator:latest"
    pythonVersion: "3"
    mainApplicationFile: local:///opt/spark/examples/src/main/python/pi.py
    sparkVersion: "3.1.1"
    conf:
      spark.app.name: "Scheduled Spark Pi"
      spark.master: k8s://https://<k8s-api-server>:<k8s-api-server-port>
      spark.submit.deployMode: cluster
    driver:
      cores: 1
      coreLimit: "1200m"
      memory: "512m"
      labels:
        version: "v1"
    executor:
      cores: 1
      instances: 1
      memory: "512m"
      labels:
        version: "v1"