Apache DolphinScheduler中停止Spark作业失败问题分析与解决

2025-05-17 22:58:23作者：何将鹤

问题背景

在使用Apache DolphinScheduler管理Spark作业时，用户发现无法通过平台成功停止运行在YARN上的Spark作业。虽然DolphinScheduler的任务实例状态显示为"已终止"，但实际上Spark作业仍在继续运行。手动执行生成的.kill文件可以成功停止作业，但在平台内操作却失败。

问题现象

当用户尝试通过DolphinScheduler停止Spark作业时，日志显示YARN应用终止失败，并抛出ExitCodeException，退出码为137（表示shell执行被中断）。有趣的是，当用户切换到开发模式，保留.kill文件并手动执行时，作业却能成功停止。

深入分析

初步排查

权限问题：首先怀疑是文件执行权限问题，但检查发现即使用户权限不足，通过sh命令也能成功执行.kill文件。
环境差异：手动执行与平台执行的差异主要在于执行用户不同（平台使用租户用户执行），但测试表明租户用户确实有执行权限。
sudo权限：检查发现引导用户(dolphinscheduler)拥有使用sudo -u切换用户的权限，排除了这方面的问题。

关键发现

通过Arthas工具进行调试时，发现了一个关键错误信息：

ERROR: Cannot execute /usr/hdp/current/hadoop/libexec/yarn-config.sh.

这表明执行过程中系统尝试加载yarn-config.sh配置文件但失败。进一步调查发现，这是由于HADOOP_HOME环境变量配置错误导致的。

根本原因

环境依赖：虽然.kill文件本身只包含简单的yarn application -kill命令，但在执行过程中，YARN客户端会尝试加载yarn-config.sh来获取必要的环境变量配置。
配置缺失：由于HADOOP_HOME环境变量配置错误，系统无法找到yarn-config.sh文件，导致命令执行失败。
执行上下文差异：手动执行时可能继承了正确的环境变量，而通过DolphinScheduler执行时环境变量未被正确设置。

解决方案

修复HADOOP_HOME：确保HADOOP_HOME环境变量正确指向Hadoop安装目录。
验证配置：
- 检查/usr/hdp/current/hadoop/libexec/yarn-config.sh文件是否存在
- 确认该文件有可执行权限
- 验证Hadoop相关环境变量配置正确
环境变量传递：确保DolphinScheduler在执行任务时能正确传递必要的环境变量。