StreamPark项目中Flink SQL在YARN_PER_JOB模式下运行失败问题分析

2025-06-19 23:27:30作者：江焘钦

incubator-streampark

Make stream processing easier! Easy-to-use streaming application development framework and operation platform.

项目地址：https://gitcode.com/gh_mirrors/incu/incubator-streampark

问题背景

在Apache StreamPark项目中，当用户尝试在Flink 1.16或1.17版本上以YARN_PER_JOB模式运行Flink SQL作业时，会遇到作业无法启动的问题。虽然相同的作业通过命令行直接使用flink run -t yarn-per-job --detached可以正常运行，但在StreamPark平台中却会抛出异常。

错误现象

作业提交失败时，系统会抛出以下关键异常信息：

java.lang.ClassCastException: org.codehaus.janino.CompilerFactory cannot be cast to org.codehaus.commons.compiler.ICompilerFactory

这个异常表明在类加载过程中出现了类型转换问题，具体是在Janino编译器相关组件的加载过程中发生的。

根本原因分析

经过深入分析，这个问题源于Flink SQL作业执行过程中类加载器的冲突。具体来说：

类加载器冲突：Flink SQL作业执行时需要加载Janino编译器相关类，但系统中存在多个版本的Janino相关JAR包，导致类加载混乱。
依赖冲突：Flink的flink-table-planner模块和Flink lib目录下的planner可能存在版本不一致的情况，导致编译器工厂类无法正确转换。
环境差异：命令行直接运行和通过StreamPark平台运行的环境存在差异，特别是在类加载机制方面，StreamPark的代理机制可能影响了正常的类加载顺序。

技术细节

Janino是一个Java编译器，Flink SQL在优化查询计划时会使用它来动态生成代码。在这个过程中：

Flink通过CompilerFactoryFactory获取编译器工厂实例
系统期望获取org.codehaus.commons.compiler.ICompilerFactory接口的实现
但由于类加载器问题，实际加载到的是不兼容的实现类

这种问题通常发生在以下情况：

类路径中存在多个Janino相关JAR包
不同模块对Janino有不同版本的依赖
类加载器层次结构导致父加载器和子加载器加载了相同类的不同版本

解决方案

针对这个问题，可以采取以下几种解决方案：

统一依赖版本：确保项目中所有模块使用的Janino相关依赖版本一致。
调整类加载策略：修改StreamPark的类加载机制，避免父加载器和子加载器加载相同类的不同版本。
排除冲突依赖：在构建时排除可能导致冲突的传递依赖。
使用隔离的类加载器：为Flink SQL作业创建完全隔离的类加载环境。

最佳实践建议

为了避免类似问题，建议开发者在StreamPark项目中使用Flink SQL时：

仔细检查项目的依赖树，确保没有版本冲突
在复杂环境下优先使用独立的类加载器
保持StreamPark与Flink版本的兼容性
对于生产环境，建议进行充分的测试验证

总结

类加载冲突是Java生态系统中常见的问题，在复杂的分布式计算框架如Flink中尤为突出。通过理解Flink SQL的执行机制和StreamPark的作业提交流程，我们可以更好地诊断和解决这类问题。对于开发者而言，掌握类加载原理和依赖管理技巧是保证应用稳定运行的重要基础。

incubator-streampark

Make stream processing easier! Easy-to-use streaming application development framework and operation platform.

项目地址：https://gitcode.com/gh_mirrors/incu/incubator-streampark

登录后查看全文

项目优选

收起

deepin linux kernel

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。