Dinky项目K8s Session模式下作业状态异常问题分析

2025-06-24 06:00:30作者：裘晴惠Vivianne

Dinky is an out-of-the-box, one-stop, real-time computing platform dedicated to the construction and practice of Unified Streaming & Batch and Unified Data Lake & Data Warehouse. Based on Apache Flink, Dinky provides the ability to connect many big data frameworks including OLAP and Data Lake.

项目地址：https://gitcode.com/gh_mirrors/di/dinky

问题现象

在使用Dinky 1.0.1版本时，用户反馈在Kubernetes Session模式下运行Flink SQL作业时出现了一个异常现象：作业虽然成功提交并在Flink UI中正常运行，但Dinky控制台却一直显示作业处于执行状态，运维中心无法正确显示作业实例状态或显示为Unknown状态。特别是在启动较多流作业后，这一问题会频繁出现。

环境配置

Dinky版本：1.0.1
数据库：MariaDB 10.6.11
相关组件：Paimon 0.8、Flink 1.17.2、Kafka 3.4
部署方式：Kubernetes环境部署，通过Nginx Ingress暴露服务
网络配置：Nginx proxy_read_timeout设置为300秒

问题分析

从日志分析来看，正常情况下作业提交流程应该包含以下几个关键步骤：

预检查阶段(SUBMIT_PRECHECK)
执行阶段(SUBMIT_EXECUTE)
构建配置阶段(SUBMIT_BUILD_CONFIG)
最终确认作业提交成功

在出现问题的场景中，日志显示作业确实成功提交到了Flink集群，但Dinky控制台流程没有正常结束，缺少了关键的流程结束日志：

Process Step SUBMIT_EXECUTE exit with status:FINISHED
Process FlinkSubmit/[id] exit with status:FINISHED

这种异常现象可能由以下几个原因导致：

网络或代理问题：由于部署在Kubernetes环境中并通过Nginx Ingress暴露服务，可能存在网络延迟或代理超时问题，导致前后端通信异常。
会话管理问题：日志中出现了会话token失效的错误提示，虽然这不是直接原因，但可能影响作业状态同步。
资源竞争：当同时运行大量流作业时，系统资源可能成为瓶颈，导致状态更新延迟或失败。
临时文件问题：Dinky的/tmp目录可能存在异常，影响作业状态跟踪。

解决方案

针对这一问题，可以尝试以下解决方案：

清理临时文件：删除Dinky工作目录下的/tmp文件夹，这可以解决因临时文件异常导致的状态跟踪问题。
重启服务：完全重启Dinky服务可以清除可能存在的内存状态异常。
升级版本：该问题在Dinky 1.0.2版本中已得到修复，建议升级到最新版本。
环境检查：
- 确认Kubernetes集群资源充足
- 检查Nginx配置，适当增加超时时间
- 验证网络连接稳定性
监控优化：对于大规模流作业场景，建议：
- 分批启动作业，避免集中提交
- 增加系统资源监控
- 优化Flink集群配置

技术建议

对于生产环境中使用Dinky管理大量Flink作业的场景，建议：

作业分组管理：将相关作业分组，避免同时提交过多作业。
状态监控：实现额外的作业状态监控机制，不依赖单一状态来源。
资源隔离：考虑为重要作业配置独立的Session集群，避免资源竞争。
日志完善：增强作业提交和状态更新的日志记录，便于问题排查。
定期维护：建立定期清理临时文件和重启服务的维护机制。

总结

Dinky作为Flink SQL开发和管理平台，在Kubernetes环境中提供了便捷的作业管理能力。本次遇到的问题主要涉及作业状态同步机制，在特定条件下可能出现状态不一致的情况。通过合理的环境配置、版本升级和运维管理，可以有效避免此类问题的发生，确保作业管理的可靠性和稳定性。

dinky

项目地址：https://gitcode.com/gh_mirrors/di/dinky

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

pytorch

Ascend Extension for PyTorch

AscendNPU-IR是基于MLIR（Multi-Level Intermediate Representation）构建的，面向昇腾亲和算子编译时使用的中间表示，提供昇腾完备表达能力，通过编译优化提升昇腾AI处理器计算效率，支持通过生态框架使能昇腾AI处理器与深度调优

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openGauss kernel ~ openGauss is an open source relational database management system

C++

174

249