首页
/ Apache DolphinScheduler中Spark任务终止失败问题分析与解决方案

Apache DolphinScheduler中Spark任务终止失败问题分析与解决方案

2025-05-17 05:24:49作者:毕习沙Eudora

问题背景

在使用Apache DolphinScheduler调度系统管理Spark on YARN任务时,用户发现通过系统界面终止任务时出现异常。虽然DolphinScheduler任务实例状态显示为"terminated",但实际的Spark作业仍在YARN集群中继续运行。通过日志分析发现,系统执行终止操作时抛出ExitCodeException异常,错误码为137(表示shell执行被中断)。

问题现象

  1. 通过DolphinScheduler界面停止Spark任务失败
  2. 系统日志显示yarn application kill命令执行异常
  3. 手动执行生成的.kill脚本可以成功终止任务
  4. 错误日志中提示"ERROR: Cannot execute /usr/hdp/current/hadoop/libexec/yarn-config.sh"

根本原因分析

经过深入排查,发现问题根源在于环境配置:

  1. Hadoop环境变量配置错误:系统中HADOOP_HOME环境变量指向了错误的路径,导致无法找到yarn-config.sh配置文件。

  2. 环境依赖差异

    • 手动执行.kill脚本时,使用的是当前用户的环境变量
    • DolphinScheduler执行时,使用的是任务所属租户的环境上下文
    • 系统执行过程中会加载yarn-config.sh来获取必要的环境配置
  3. 权限问题:虽然.kill文件本身有执行权限,但执行过程中依赖的Hadoop环境配置不可用。

解决方案

  1. 修复Hadoop环境配置

    • 检查并修正HADOOP_HOME环境变量
    • 确保/usr/hdp/current/hadoop/libexec/yarn-config.sh文件存在且可读
  2. 权限检查

    • 确认DolphinScheduler执行用户有权限访问Hadoop相关配置
    • 检查sudo -u命令的执行权限
  3. 环境一致性验证

    • 使用DolphinScheduler执行用户身份测试yarn命令
    • 验证环境变量是否完整加载

技术要点

  1. DolphinScheduler任务终止机制:

    • 生成包含yarn application -kill命令的.kill脚本
    • 通过shell执行该脚本终止YARN应用
  2. 环境依赖:

    • 执行yarn命令需要完整的Hadoop环境
    • yarn-config.sh提供关键的Hadoop环境变量
  3. 权限控制:

    • 多租户环境下权限隔离
    • sudo -u切换用户执行

最佳实践建议

  1. 部署前检查:

    • 验证所有节点Hadoop环境一致性
    • 测试基础命令执行
  2. 权限管理:

    • 确保执行用户有必要的sudo权限
    • 统一各节点权限配置
  3. 日志监控:

    • 关注系统操作日志中的异常信息
    • 建立关键操作的结果验证机制

总结

这个问题展示了分布式任务调度系统中环境配置的重要性。DolphinScheduler作为调度系统,其执行环境与实际命令行环境可能存在差异,特别是在多租户场景下。通过本次问题排查,我们不仅解决了具体的Spark任务终止问题,也为类似的环境配置问题提供了排查思路。建议用户在部署和使用调度系统时,特别注意环境一致性和权限配置的完整性。

登录后查看全文
热门项目推荐

热门内容推荐

最新内容推荐

项目优选

收起
docsdocs
OpenHarmony documentation | OpenHarmony开发者文档
Dockerfile
144
1.93 K
kernelkernel
deepin linux kernel
C
22
6
ohos_react_nativeohos_react_native
React Native鸿蒙化仓库
C++
192
274
openGauss-serveropenGauss-server
openGauss kernel ~ openGauss is an open source relational database management system
C++
145
189
RuoYi-Vue3RuoYi-Vue3
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
930
553
nop-entropynop-entropy
Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台,包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分,采用java语言实现,可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用
Java
8
0
openHiTLSopenHiTLS
旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!
C
423
392
金融AI编程实战金融AI编程实战
为非计算机科班出身 (例如财经类高校金融学院) 同学量身定制,新手友好,让学生以亲身实践开源开发的方式,学会使用计算机自动化自己的科研/创新工作。案例以量化投资为主线,涉及 Bash、Python、SQL、BI、AI 等全技术栈,培养面向未来的数智化人才 (如数据工程师、数据分析师、数据科学家、数据决策者、量化投资人)。
Jupyter Notebook
75
66
CangjieCommunityCangjieCommunity
为仓颉编程语言开发者打造活跃、开放、高质量的社区环境
Markdown
1.11 K
0
openHiTLS-examplesopenHiTLS-examples
本仓将为广大高校开发者提供开源实践和创新开发平台,收集和展示openHiTLS示例代码及创新应用,欢迎大家投稿,让全世界看到您的精巧密码实现设计,也让更多人通过您的优秀成果,理解、喜爱上密码技术。
C
64
511