Apache Hudi在Flink负载测试中数据丢失问题的分析与解决

2025-06-05 08:31:53作者：咎竹峻Karen

apache/hudi: 这是一个开源的分布式列存储系统，用于处理大量的时间序列数据。它提供了快速插入、更新和删除数据的功能，以及高效的查询和分析能力。适合大数据处理和分析开发者。

项目地址：https://gitcode.com/gh_mirrors/hud/hudi

问题背景

在Apache Hudi与Apache Flink的集成使用场景中，用户在进行负载测试时发现了一个严重的数据丢失问题。当启用元数据表(Metadata Table, MDT)功能并配合Flink的自动扩缩容(Autoscale)时，如果检查点(checkpoint)由于任务管理器(Task Manager)变更或内存堆问题而失败，会导致已处理但未提交的数据被丢弃，且后续数据也无法正常处理。

问题现象

具体表现为：

在检查点失败后，所有已处理但未完成检查点的数据都会被丢弃
系统会尝试触发新的检查点，但不再处理任何数据
只有在后续新的数据到达时，系统才能恢复正常处理
该问题在Hudi 1.0.0版本中稳定复现，但在0.15版本中不存在

技术分析

经过深入调查，发现问题的根源与以下几个技术点相关：

元数据表(MDT)的默认启用：Hudi 1.0.0版本默认启用了MDT功能，而0.15版本默认未启用。MDT的引入改变了数据提交和检查点的行为模式。
锁机制要求：启用MDT后，Hudi要求配置锁提供者(lock provider)。文件系统锁在S3存储上不可靠，而InProcessLockProvider在分布式环境下表现不佳，导致检查点失败时数据无法正确恢复。
Kafka消费偏移量策略：原始配置使用OffsetResetStrategy.LATEST，在检查点失败后可能导致数据丢失。改为OffsetResetStrategy.EARLIEST后，系统能够从最早的可用偏移量重新消费，确保数据完整性。
Flink检查点机制：在任务管理器被手动终止或自动扩缩容触发时，如果检查点正在进行中，MDT的锁机制可能导致状态恢复失败。

解决方案

经过多次测试验证，最终确定以下解决方案：

调整Kafka消费策略：将偏移量重置策略从LATEST改为EARLIEST，确保在故障恢复时能够重新处理可能丢失的数据。

// 修改前
.setStartingOffsets(OffsetsInitializer.committedOffsets(OffsetResetStrategy.LATEST))

// 修改后  
.setStartingOffsets(OffsetsInitializer.committedOffsets(OffsetResetStrategy.EARLIEST))

合理配置锁提供者：对于生产环境，建议使用Zookeeper或DynamoDB作为锁提供者，避免使用文件系统锁或进程内锁。
检查点配置优化：适当增加检查点间隔和超时时间，减少因资源波动导致的检查点失败概率。

经验总结

版本差异需重视：Hudi 1.0.0与之前版本在MDT默认行为上的变化可能导致兼容性问题，升级时需充分测试。
分布式锁的重要性：在分布式环境下，可靠的锁机制是保证数据一致性的关键，特别是在启用高级功能如MDT时。
端到端测试的必要性：任何配置变更都应进行完整的故障恢复测试，包括模拟任务管理器失败、网络分区等异常场景。
监控与告警：对于生产环境，应建立完善的监控机制，及时发现检查点失败、数据延迟等异常情况。

结语

通过本次问题的排查与解决，我们深入理解了Hudi MDT与Flink检查点机制的交互细节。在实际生产环境中，合理配置数据源消费策略、锁机制和检查点参数，是确保大数据处理管道可靠运行的关键。这也提醒我们在采用新技术特性时，需要全面评估其对系统稳定性的影响，并通过充分的测试验证其行为是否符合预期。

apache/hudi: 这是一个开源的分布式列存储系统，用于处理大量的时间序列数据。它提供了快速插入、更新和删除数据的功能，以及高效的查询和分析能力。适合大数据处理和分析开发者。

项目地址：https://gitcode.com/gh_mirrors/hud/hudi

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

flutter_flutter

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理