在pg_duckdb中使用容器挂载本地目录并读取Parquet文件的技术实践

2025-07-03 22:33:37作者：廉皓灿Ida

pg_duckdb作为PostgreSQL的扩展，允许用户在PostgreSQL环境中直接使用DuckDB的强大功能。本文将详细介绍如何通过容器化部署pg_duckdb，并挂载本地目录作为数据卷来读取Parquet文件的技术实现。

容器化部署pg_duckdb

使用Docker可以快速部署pg_duckdb环境。基本部署命令如下：

docker run -d -e POSTGRES_PASSWORD=duckdb pgduckdb/pgduckdb:16-main

为了访问本地文件系统中的Parquet文件，我们需要通过-v参数将本地目录挂载到容器中：

docker run -d -e POSTGRES_PASSWORD=duckdb -v /本地/数据路径:/mnt/data pgduckdb/pgduckdb:16-main

读取Parquet文件的正确语法

在pg_duckdb中，使用read_parquet函数读取Parquet文件时，必须明确指定返回的列定义。这是与原生DuckDB的一个重要区别。

错误示例：

SELECT * FROM read_parquet('/mnt/data/*.parquet') AS data LIMIT 10;

正确语法：

SELECT * FROM read_parquet('/mnt/data/*.parquet') 
AS data(column1 type1, column2 type2, ...) 
LIMIT 10;

实际应用示例

假设我们有一个包含用户数据的Parquet文件，结构如下：

id: 整数类型
name: 字符串类型
age: 整数类型

正确的查询语句应该是：

SELECT name, age 
FROM read_parquet('/mnt/data/users.parquet') 
AS users(id INT, name VARCHAR, age INT) 
WHERE age > 18;

其他表函数的使用注意事项

同样的规则适用于pg_duckdb中的其他表函数，如iceberg_scan。文档中示例的列定义语法需要调整为PostgreSQL的标准格式：

错误语法：

SELECT COUNT(i) FROM iceberg_scan('path') AS (int i);

正确语法：

SELECT COUNT(i) FROM iceberg_scan('path') AS (i INT);

技术要点总结

容器部署时确保正确挂载数据卷，注意权限设置
使用表函数时必须显式定义返回的列名和类型
列定义语法遵循PostgreSQL规范，格式为(column_name data_type, ...)
对于复杂数据结构，需要完整定义所有需要访问的字段

通过掌握这些关键点，开发者可以充分利用pg_duckdb在PostgreSQL环境中处理Parquet等现代数据格式的能力，构建高效的数据处理流程。

pg_duckdb

DuckDB-powered Postgres for high performance apps & analytics.

项目地址：https://gitcode.com/GitHub_Trending/pg/pg_duckdb

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。