Spark Operator 监控指标缺失问题分析与解决方案

2025-06-27 04:56:22作者：史锋燃Gardner

问题背景

在使用Spark Operator进行Spark应用管理时，开发者发现无法从/metrics端点获取预期的监控指标。根据官方文档描述，应该能够看到一系列以spark_application_开头的指标，但在实际环境中这些指标并未出现。

问题现象

开发者部署了Spark Operator 2.0.2版本，启用了监控功能（--enable-metrics=true），并配置了监控端口8080。虽然Operator能够正常启动并显示"Starting metrics server"的日志信息，但在访问/metrics端点时，只能看到controller_runtime_active_workers等基础指标，而缺少关键的Spark应用相关指标。

根本原因分析

经过深入调查和验证，发现以下几个关键点：

指标命名变更：最新版本的Spark Operator已经将指标前缀从文档中描述的spark_app_变更为spark_application_，这是导致开发者无法找到预期指标的一个重要原因。
指标生成条件：Spark Operator的监控指标并非在启动后立即生成，而是需要至少有一个Spark应用被成功提交后才会开始记录相关指标。没有Spark应用运行时，这些指标自然不会出现在/metrics端点中。
指标持久性问题：当Operator Pod重启后，之前记录的指标数据会丢失，需要重新提交Spark应用才能重新生成这些指标。

解决方案

要正确获取Spark Operator的监控指标，需要遵循以下步骤：

部署Spark Operator：确保在部署时启用了监控功能，典型配置如下：
```
--enable-metrics=true 
--metrics-bind-address=:8080
--metrics-endpoint=/metrics
```
提交测试应用：部署一个简单的Spark应用（如Spark Pi示例），这是触发指标生成的关键步骤。示例应用提交后，Operator会开始记录应用提交数、运行时间、延迟等指标。
验证指标：访问/metrics端点，现在应该能看到以下类别的指标：
- spark_application_count：Spark应用总数
- spark_application_running_count：当前运行的Spark应用数
- spark_application_start_latency_seconds：应用启动延迟
- spark_application_success_count：成功完成的应用数
- spark_application_success_execution_time_seconds：成功应用执行时间