Apache Hudi集群同步过程中文件不存在问题的分析与解决

2025-06-08 12:08:53作者：宣聪麟

Upserts, Deletes And Incremental Processing on Big Data.

项目地址：https://gitcode.com/gh_mirrors/hu/hudi

问题背景

在使用Apache Hudi 0.13.0版本与Flink 1.16集成时，当Yarn重启Flink作业后，作业未能从检查点成功恢复。在运行一段时间后，系统在同步集群操作过程中抛出"file does not exists"异常。这种情况通常发生在Hudi表执行异步集群(clustering)操作时，特别是在作业异常中断后恢复的场景下。

问题分析

从错误日志可以看出，系统在尝试读取HDFS上的Parquet文件时失败，具体文件路径为hdfs://ctyunns/user/yxfcenter/hudi/tables/tele_table/tele_table/ods_offer_inst/8140000/f54559fc-95cc-428e-bb45-096d8858d0c9-0_1-4-6_20241229153814597.parquet。这表明集群操作计划(clustering plan)中引用的文件在实际存储系统中已经不存在。

这种情况通常由以下几个原因导致：

文件被手动删除或清理策略误删
作业异常中断导致元数据与实际文件状态不一致
Hudi 0.13.0版本在恢复机制上存在已知问题

解决方案

1. 手动修复损坏的集群计划

对于当前问题，最直接的解决方案是手动干预Hudi的时间线(timeline)，移除损坏的集群计划：

定位到.hoodie目录下的时间线文件
查找与错误日志中提到的instant时间(20241229211025341)对应的集群计划
移除该损坏的计划文件

2. 版本升级建议

Hudi 0.13.0版本在恢复机制上确实存在一些已知问题，建议考虑升级到更高版本：

0.14.1或0.15.0版本：这些版本对恢复机制有显著改进，且保持向后兼容
1.x版本：虽然功能更强大，但需要注意可能的兼容性问题，建议先测试升级流程

3. 配置优化

在配置方面，可以考虑以下优化点：

适当调整集群任务并发数(clustering.tasks)
检查HDFS的配置，确保文件操作具有足够的重试机制
考虑增加检查点频率，减少恢复时的数据丢失风险

预防措施

为避免类似问题再次发生，可以采取以下预防措施：

实施完善的监控机制，及时发现文件异常
定期验证元数据与实际文件的匹配性
在关键操作前创建备份点
考虑实现自动化修复流程，减少人工干预

总结

Hudi在实现高效数据湖管理的同时，其异步集群操作对系统稳定性提出了较高要求。通过理解问题本质、采取正确的修复措施，并结合版本升级和配置优化，可以有效解决这类文件同步问题。对于生产环境，建议在非关键业务时段测试恢复流程，确保系统具备足够的鲁棒性。

Upserts, Deletes And Incremental Processing on Big Data.

项目地址：https://gitcode.com/gh_mirrors/hu/hudi

登录后查看全文

项目优选

收起

deepin linux kernel

Ascend Extension for PyTorch

flutter_flutter

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

ohos_react_native

React Native鸿蒙化仓库

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

openGauss-server

openGauss kernel ~ openGauss is an open source relational database management system

TorchAir 支持用户基于PyTorch框架和torch_npu插件在昇腾NPU上使用图模式进行推理。