Mill构建工具中集成Spark开发的完整指南

2025-07-02 06:30:15作者：庞队千Virginia

Apache Spark作为当今主流的大数据处理框架，其与构建工具的集成一直是开发者关注的焦点。本文将深入探讨如何在Mill构建工具中高效地开发和部署Spark应用程序，涵盖从基础配置到生产部署的全流程实践。

本地开发环境搭建

在Mill项目中集成Spark的首要步骤是配置基础的依赖关系。开发者需要在build.sc文件中声明Spark核心依赖：

import mill._, scalalib._

object spark extends ScalaModule {
  def scalaVersion = "2.12.15"
  def ivyDeps = Agg(
    ivy"org.apache.spark::spark-core:3.3.0",
    ivy"org.apache.spark::spark-sql:3.3.0"
  )
}

这个最小化配置允许开发者编写和运行本地Spark作业。典型的WordCount示例可以这样实现：

import org.apache.spark.sql.SparkSession

object WordCount {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder()
      .appName("WordCount")
      .master("local[4]")
      .getOrCreate()

    import spark.implicits._
    val text = spark.read.text("input.txt").as[String]
    val counts = text.flatMap(_.split(" "))
      .groupByKey(identity)
      .count()
    
    counts.show()
    spark.stop()
  }
}

构建可部署的Spark应用包

要将应用部署到Spark集群，需要生成包含所有依赖的uber JAR。Mill通过assembly任务提供了这一功能：

object spark extends ScalaModule {
  // ... 其他配置
  
  def assembly = T {
    val jar = super.assembly()
    val dest = T.dest / "spark-app.jar"
    os.copy(jar.path, dest)
    PathRef(dest)
  }
}

执行mill spark.assembly将生成可直接通过spark-submit提交的JAR包：

spark-submit --class WordCount out/spark/assembly.dest/spark-app.jar

复杂数据处理示例

实际生产环境中往往需要处理更复杂的数据转换。以下示例展示了一个电商场景下的用户行为分析：

case class UserAction(userId: String, action: String, timestamp: Long)

object UserAnalysis {
  def process(spark: SparkSession, inputPath: String): Unit = {
    import spark.implicits._
    
    val actions = spark.read.json(inputPath)
      .as[UserAction]
    
    val activeUsers = actions
      .filter($"action" === "purchase")
      .groupBy($"userId")
      .agg(count("*").as("purchases"))
      .filter($"purchases" > 5)
    
    activeUsers.write.parquet("output/active_users")
  }
}

PySpark集成方案

对于Python开发者，Mill同样支持PySpark应用的构建。需要在build.sc中配置Python模块：

import mill._, scalalib._

object pyspark extends PythonModule {
  def sources = T.sources(os.pwd / "src")
  
  def requirements = T {
    "pyspark==3.3.0" +: super.requirements()
  }
}

示例PySpark脚本可以放置在src/main.py中：

from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()
df = spark.read.json("input.json")
df.filter(df.value > 100).write.parquet("output.parquet")

通过mill pyspark.run即可执行Python脚本。