Apache Parquet Java 使用指南

2026-01-16 10:11:56作者：咎竹峻Karen

项目介绍

Apache Parquet Java 是一个强大的开源列式数据存储格式的Java实现，它设计用于优化大规模数据处理。该格式支持高效的压缩和编码技术，非常适合大数据场景下的存储和检索。Parquet采用了Dremel论文中的记录撕裂和组装算法来表达嵌套结构，因此能够优雅地处理复杂数据模型。通过与多种大数据处理框架如Hadoop、Spark等无缝集成，Parquet成为了数据分析和处理领域的重要组件。

项目快速启动

要快速开始使用Apache Parquet Java，首先确保你的开发环境已经配置了Java SDK。以下是创建并读取Parquet文件的基本步骤：

环境准备

添加依赖：在Maven项目中，将以下依赖加入到pom.xml文件中。

<dependencies>
    <dependency>
        <groupId>org.apache.parquet</groupId>
        <artifactId>parquet-hadoop</artifactId>
        <version>最新版本号</version> <!-- 替换为实际发布的最新版本 -->
    </dependency>
</dependencies>

编写代码示例

创建Parquet文件

import org.apache.hadoop.conf.Configuration;
import org.apache.parquet.example.data.Group;
import org.apache.parquet.example.data.simple.SimpleGroupFactory;
import org.apache.parquet.hadoop.ParquetWriter;
import org.apache.parquet.hadoop.metadata.CompressionCodecName;

public class QuickStart {
    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        String fileName = "example.parquet";
        
        SimpleGroupFactory groupFactory = new SimpleGroupFactory();
        Group root = groupFactory.newGroup("root")
                .addGroup("message")
                    .addInteger("id", 1)
                    .addString("content", "Hello Parquet!");

        ParquetWriter<Group> writer = new ParquetWriter<>(new Path(fileName),
                groupFactory.getSchema(root),
                CompressionCodecName.GZIP,
                true,
                new Configuration());
        writer.write(root);
        writer.close();
    }
}

读取Parquet文件

import org.apache.hadoop.conf.Configuration;
import org.apache.parquet.example.data.Group;
import org.apache.parquet.example.data.simple.SimpleGroupFactory;
import org.apache.parquet.hadoop.ParquetReader;

public class ReadParquet {
    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        String fileName = "example.parquet";

        SimpleGroupFactory factory = new SimpleGroupFactory();
        ParquetReader<Group> reader = new ParquetReader<>(new Path(fileName), factory, conf);

        Group record;
        while ((record = reader.read()) != null) {
            System.out.println(record.getInteger("id", 0) + ": " + record.getString("content", 0));
        }

        reader.close();
    }
}