Apache Parquet Hadoop 1.14.1在Windows 11上的文件锁问题分析与解决方案

2025-06-28 22:32:02作者：段琳惟

项目地址：https://gitcode.com/gh_mirrors/pa/parquet-java

问题背景

在Apache Parquet Hadoop 1.14.1版本中，当运行在Windows 11操作系统上时，开发者发现了一个与文件锁相关的严重问题。具体表现为：在使用ParquetRewriter类处理完Parquet文件后，系统无法删除原始输入文件，因为文件仍被其他进程锁定。

问题现象

开发者在使用ParquetRewriter类合并多个Parquet文件后，尝试删除原始输入文件时遇到了"java.nio.file.FileSystemException"异常，错误信息明确指出文件正被其他进程使用，导致删除操作失败。这种情况在Windows 11 22H2系统上尤为明显。

技术分析

深入分析ParquetRewriter类的实现，发现问题出在文件读取器的关闭机制上。在原始代码中，当从输入文件队列中获取下一个读取器时，前一个读取器没有被正确关闭。具体来说，在ParquetRewriter.java的第256行，代码仅执行了"reader = inputFiles.poll();"操作，而没有先关闭当前的reader对象。

这种设计在Unix-like系统上可能不会立即显现问题，因为文件锁的实现方式不同。但在Windows系统上，文件锁机制更为严格，未关闭的文件读取器会保持对文件的锁定状态，导致后续操作无法访问该文件。

解决方案

正确的做法应该是在获取新读取器之前，先关闭当前的读取器。修改后的代码逻辑如下：

检查当前reader是否为null
如果不为null，则先关闭当前reader
再从队列中获取新的reader

这种修改确保了文件资源被正确释放，消除了文件锁问题。同时，为了代码健壮性，还添加了对reader对象的null检查，避免潜在的NullPointerException。

影响与建议

这个修复对于需要在Windows环境下处理Parquet文件的应用程序尤为重要。开发者在使用1.14.1版本时，如果遇到类似的文件锁问题，可以考虑以下临时解决方案：

手动应用这个修复补丁
在删除文件前增加延迟，等待系统释放文件锁
升级到包含此修复的后续版本

对于长期解决方案，建议关注Apache Parquet项目的更新，等待包含此修复的正式版本发布。同时，开发者在处理文件I/O操作时，应特别注意资源释放的正确时机，尤其是在跨平台应用中，要考虑不同操作系统对文件锁处理的差异。

总结

文件资源管理是数据处理应用中的重要环节，特别是在大数据处理框架中。这个案例展示了即使在成熟的Apache项目中，平台特定的问题也可能出现。通过仔细分析文件操作的生命周期，并确保资源的正确释放，可以有效避免这类问题的发生。

项目地址：https://gitcode.com/gh_mirrors/pa/parquet-java

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

flutter_flutter

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

ohos_react_native

React Native鸿蒙化仓库

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

cangjie_compiler

仓颉编译器源码及 cjdb 调试工具。