PostgreSQL 与 Parquet 文件互操作扩展——pg_parquet

2026-01-30 05:08:06作者：滑思眉Philip

1. 项目介绍

pg_parquet 是一个开源的 PostgreSQL 扩展，它使得用户可以通过 PostgreSQL 的 COPY TO/FROM 命令来读取和写入位于 Amazon S3 或文件系统中的 Parquet 文件。Parquet 是一种列式存储的文件格式，常用于大数据处理和分析。该扩展依赖于 Apache Arrow 项目来处理 Parquet 文件的读写，同时使用 pgrx 项目来扩展 PostgreSQL 的 COPY 命令。

2. 项目快速启动

在开始之前，确保您已经安装了 PostgreSQL。以下是快速启动 pg_parquet 扩展的步骤：

# 安装 rustup 和 cargo-pgrx
curl --proto 'https' --tlsv1.2 -sSf https://sh.rustup.rs | sh
cargo install cargo-pgrx

# 初始化 pgrx
cargo pgrx init --pg13 $(which pg_config)

# 添加扩展到 shared_preload_libraries
echo "shared_preload_libraries = 'pg_parquet'" >> ~/.pgrx/data-13/postgresql.conf

# 构建并安装扩展
cargo pgrx run

# 或者仅构建和安装扩展（对于生产二进制文件使用 --release 标志）
cargo pgrx install --release

# 创建数据库中的扩展
psql
CREATE EXTENSION pg_parquet;

3. 应用案例和最佳实践

以下是如何使用 pg_parquet 扩展的几个示例：

导出数据到 Parquet 文件

COPY (SELECT * FROM my_table) TO 's3://mybucket/data.parquet' WITH (format 'parquet');

从 Parquet 文件加载数据

COPY my_table FROM 's3://mybucket/data.parquet' WITH (format 'parquet');

检查 Parquet 文件的模式

SELECT * FROM parquet.schema('path/to/your/file.parquet');

检查 Parquet 文件的元数据

SELECT * FROM parquet.metadata('path/to/your/file.parquet');

4. 典型生态项目

pg_parquet 扩展可以与多种工具和项目集成，以下是一些典型的生态项目：

Apache Arrow: 用于处理和转换 Parquet 文件的底层库。
pgrx: 一个用于在 Rust 中编写 PostgreSQL 扩展的工具。
Amazon S3: 可用于存储和管理 Parquet 文件的云服务。
PostgreSQL: 强大的开源关系数据库管理系统。

使用 pg_parquet 可以方便地在 PostgreSQL 和大数据生态之间交换数据，为数据分析师和工程师提供了更大的灵活性和效率。

pg_parquet

Copy to/from Parquet in S3, Azure Blob Storage, Google Cloud Storage, http(s) stores, local files or standard inout stream from within PostgreSQL

项目地址：https://gitcode.com/gh_mirrors/pg/pg_parquet

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。