Apache Parquet-MR 中 ParquetWriter 删除导致文件清空问题解析

2025-06-28 19:47:06作者：齐添朝

问题背景

在 Apache Parquet-MR 项目（1.14.1版本）中，开发者报告了一个关于 Parquet 文件写入的异常现象：当创建新的 ParquetWriter 实例时，之前已写入完成的 Parquet 文件会被意外清空。该问题表现为文件大小变为0字节且无法读取，错误提示为"File cannot be read as parquet"。

问题复现与根因分析

通过开发者提供的代码片段和后续讨论，可以还原问题场景：

开发者首先创建了一个 AvroParquetWriter 实例 writer1 并写入文件 file1
关闭 writer1 后，file1 内容正常
当创建第二个 AvroParquetWriter 实例 writer2 时（即使未执行写入操作），file1 会被清空

深入分析发现，问题的根本原因在于文件句柄的重复使用。当第二次调用 builder 时，如果意外地使用了与第一次相同的文件路径（如代码中误将 localOutputFile2 写成了 localOutputFile），新的 ParquetWriter 初始化过程会重新打开该文件，导致原有内容被截断。

技术原理

Parquet 文件的写入机制包含几个关键点：

文件打开模式：ParquetWriter 在初始化时会以创建/覆盖模式打开目标文件
写入时机：数据实际写入发生在 write() 方法调用时，但文件打开操作在 builder 阶段就已完成
资源管理：即使不显式调用 write()，Writer 的初始化也会影响文件状态

这种设计符合 Parquet 的"一次写入"特性，但需要开发者特别注意文件路径的管理。

解决方案与最佳实践

要避免此类问题，建议采取以下措施：

严格检查文件路径：确保每次创建 Writer 时使用不同的文件路径
使用临时文件模式：先写入临时文件，确认成功后重命名为目标文件
防御性编程：增加文件存在性检查，避免意外覆盖
资源隔离：为每个写入任务创建独立的文件句柄对象

示例修正代码：

// 正确做法：确保使用不同的LocalOutputFile实例
LocalOutputFile output1 = new LocalOutputFile(Paths.get("file1.parquet"));
LocalOutputFile output2 = new LocalOutputFile(Paths.get("file2.parquet"));

// 写入操作间保持完全隔离
try(ParquetWriter<GenericRecord> writer1 = createWriter(output1)) {
    writer1.write(record1);
}

try(ParquetWriter<GenericRecord> writer2 = createWriter(output2)) {
    // 安全操作，不会影响file1
}