EasyScheduler中Yarn任务管理的问题分析与解决方案

2025-05-17 18:42:43作者：魏献源Searcher

问题背景

在EasyScheduler 3.2.1版本中，当用户尝试停止一个运行在YARN集群模式下的Flink任务时，系统会尝试通过YarnApplicationManager组件来终止对应的YARN应用。然而，在实际操作中，系统无法成功执行yarn命令来终止应用，导致任务无法正常停止。

问题现象

当执行停止操作时，系统日志中会出现以下错误信息：

无法找到yarn命令的错误提示
即使添加了环境变量加载后，虽然能够成功终止YARN应用，但日志中仍会记录错误信息

根本原因分析

经过深入分析，发现问题的根源主要有以下几个方面：

Shell执行环境问题：EasyScheduler默认使用sh而非bash来执行shell脚本，而sh不会自动加载/etc/profile中的环境变量，导致无法找到yarn命令。
YARN应用状态跟踪缺失：当前系统设计中没有实现对YARN应用状态的持续跟踪机制，导致系统无法准确判断应用的实际运行状态。
命令执行结果处理不当：即使yarn kill命令执行成功，系统仍会将正常的INFO日志信息误判为错误输出。

解决方案

1. 修复yarn命令执行问题

在YarnApplicationManager.execYarnKillCommand方法中，需要添加环境变量的加载语句：

private void execYarnKillCommand(String tenantCode, String commandFile, String cmd) throws Exception {
    StringBuilder sb = new StringBuilder();
    sb.append("#!/bin/sh\n");
    sb.append("BASEDIR=$(cd `dirname $0`; pwd)\n");
    sb.append("cd $BASEDIR\n");
    sb.append("source /etc/profile\n");  // 添加环境变量加载
    sb.append("\n\n");
    sb.append(cmd);
    
    // 其余代码保持不变
}

2. 实现YARN应用状态跟踪

对于需要跟踪YARN应用状态的任务（如Flink任务），可以扩展任务处理逻辑，添加状态跟踪功能：

@Override
public void trackApplicationStatus() throws TaskException {
    YarnClient yarnClient = YarnClient.createYarnClient();
    try {
        // 初始化YarnClient配置
        YarnConfiguration conf = new YarnConfiguration();
        conf.addResource(new File(System.getenv("HADOOP_CONF_DIR") + "/hdfs-site.xml"));
        conf.addResource(new File(System.getenv("HADOOP_CONF_DIR") + "/core-site.xml"));
        conf.addResource(new File(System.getenv("HADOOP_CONF_DIR") + "/yarn-site.xml"));
        yarnClient.init(conf);
        yarnClient.start();
        
        // 解析应用ID
        String[] splitAppIds = appIds.split("_");
        ApplicationId applicationId = ApplicationId.newInstance(
            Long.parseLong(splitAppIds[1]),
            Integer.parseInt(splitAppIds[2]));
        
        // 持续跟踪应用状态
        boolean yarnRunningFlag = true;
        while (yarnRunningFlag) {
            ApplicationReport appReport = yarnClient.getApplicationReport(applicationId);
            YarnApplicationState appState = appReport.getYarnApplicationState();
            
            if (appState == YarnApplicationState.FAILED) {
                setExitStatusCode(TaskConstants.EXIT_CODE_FAILURE);
                yarnRunningFlag = false;
            } else if (appState == YarnApplicationState.FINISHED || 
                      appState == YarnApplicationState.KILLED) {
                yarnRunningFlag = false;
            }
            
            Thread.sleep(5000); // 5秒间隔检查
        }
    } finally {
        yarnClient.stop();
        yarnClient.close();
    }
}