Apache Hudi并发读写场景下的FileNotFoundException问题解析

2025-06-05 07:02:09作者：平淮齐Percy

问题背景

在使用Apache Hudi构建数据湖时，开发团队可能会遇到并发读写场景下的FileNotFoundException异常。这种情况通常发生在以下场景：一个Spark SQL读取操作正在进行时，另一个独立的写入操作对同一Hudi表进行了修改，导致读取操作失败并抛出文件不存在异常。

问题现象

当使用Spark SQL查询Hudi表时，如果同时有写入操作修改了表数据，读取作业可能会失败并出现类似如下的错误：

java.io.FileNotFoundException: File s3://bucket/path/table/partition does not exist.

从堆栈跟踪可以看出，错误发生在Hudi尝试通过FileSystemBackedTableMetadata获取分区路径时，表明底层文件系统已经无法找到查询计划中引用的文件路径。

根本原因分析

经过深入分析，这个问题主要由以下几个因素共同导致：

写入模式影响：测试环境中使用了mode(overwrite)写入模式，这种模式会完全删除表目录并重新创建，导致正在进行的读取操作无法找到原有文件。
文件清理机制：Hudi的清理器(cleaner)可能会删除旧的提交版本，而长时间运行的读取作业如果引用了已被清理的提交版本，就会遇到文件不存在的问题。
快照隔离机制：虽然Hudi通过时间线(timeline)和多版本并发控制(MVCC)提供了写入器和读取器之间的快照隔离保证，但在某些特定操作下这种保证会被打破。

解决方案与最佳实践

针对这类并发读写问题，可以采取以下解决方案：

避免使用覆盖写入模式：在生产环境中，应尽量避免使用会完全重建表的写入模式，如mode(overwrite)。可以考虑使用增量更新(UPSERT)或追加(APPEND)模式。
配置合理的清理策略：调整Hudi的清理器配置，确保不会过早删除仍被读取作业引用的数据版本。可以设置hoodie.cleaner.commits.retained参数保留足够数量的历史提交。
启用并发控制：对于需要严格并发保证的场景，可以启用Hudi的并发控制功能，通过锁机制协调读写操作。
使用时间旅行查询：对于需要一致性读取的场景，可以考虑使用Hudi的时间旅行查询功能，明确指定要读取的时间点或提交版本。

技术原理深入

Hudi通过以下机制保证并发读写场景下的数据一致性：

多版本并发控制(MVCC)：Hudi维护了数据文件的多版本历史，读取操作可以获取特定时间点的数据快照。
原子性提交：所有写入操作通过原子性的提交机制更新元数据，确保读取操作要么看到全部修改，要么看不到任何修改。
文件索引机制：Hudi的文件索引跟踪数据文件的位置和版本信息，帮助查询引擎定位正确的数据文件。

在正常情况下，单个写入器和多个读取器的场景下，Hudi的MVCC机制能够很好地工作。问题通常出现在特殊操作模式(如覆盖写入)或不当配置(如过于激进的清理策略)的情况下。

总结

Apache Hudi提供了强大的并发读写支持，但在实际使用中需要注意操作模式和配置参数的合理设置。通过理解Hudi的并发控制原理和采用适当的最佳实践，可以避免文件找不到等并发问题，构建稳定可靠的数据湖解决方案。对于生产环境，建议进行充分的测试以验证并发场景下的系统行为，并根据业务需求调整相关配置参数。

hudi

Upserts, Deletes And Incremental Processing on Big Data.

项目地址：https://gitcode.com/gh_mirrors/hud/hudi

登录后查看全文