EasyScheduler中Spark集群模式任务提交失败问题分析与解决

2025-05-17 16:11:36作者：江焘钦

问题背景

在使用EasyScheduler调度Spark任务时，用户遇到了一个典型问题：当选择集群模式（cluster mode）运行Spark任务时，系统报错提示无法找到指定的JAR文件。该问题特别容易出现在EasyScheduler与Spark Driver运行在不同节点的情况下。

用户配置了以下环境：

在任务执行过程中，错误日志显示Spark Driver无法找到指定的JAR文件路径：

java.nio.file.NoSuchFileException: /tmp/dolphinscheduler/exec/process/default/.../spark-examples_2.12-3.5.4.jar

经过深入分析，该问题主要由以下几个因素导致：

资源路径解析问题：EasyScheduler在生成Spark提交命令时，错误地将资源中心中的JAR文件路径解析为本地临时路径，而非MinIO中的实际存储路径。
集群模式特殊性：在Spark集群模式下，Driver程序会在集群中的某个Worker节点上启动，而非在EasyScheduler Worker节点上。因此，Driver无法访问EasyScheduler Worker节点上的本地文件。
资源配置不完整：用户虽然上传了JAR文件到资源中心，但在任务配置中可能没有正确引用这些资源。

完整上传资源文件：确保将Spark任务所需的所有JAR文件通过EasyScheduler的资源中心上传到MinIO存储。
正确配置任务参数：
- 在Spark任务配置中，明确指定"Main Package"为主JAR文件
- 在"Resources"部分添加所有依赖的JAR文件
验证资源可用性：通过EasyScheduler界面检查资源文件是否确实存在于资源中心。

EasyScheduler与Spark集成时，特别是在集群模式下，资源路径的处理需要特别注意。正确的做法是通过资源中心统一管理所有依赖文件，并确保Spark集群能够正确访问这些资源。对于使用MinIO等对象存储的场景，还需要特别注意访问权限和端点配置的正确性。

通过遵循上述解决方案和最佳实践，可以有效地避免类似问题的发生，确保Spark任务在EasyScheduler中稳定可靠地运行。

登录后查看全文