首页
/ ClickHouseDB FDW 使用指南:PostgreSQL与ClickHouse数据集成方案

ClickHouseDB FDW 使用指南:PostgreSQL与ClickHouse数据集成方案

2025-07-08 13:40:30作者:范靓好Udolf

前言

在现代数据架构中,经常需要将不同数据库系统的数据进行集成和分析。ClickHouseDB FDW(Foreign Data Wrapper)为PostgreSQL用户提供了一个强大的工具,使其能够直接查询ClickHouse数据库中的数据,而无需进行复杂的数据迁移或ETL过程。

安装与基础配置

在开始使用ClickHouseDB FDW之前,需要确保已经完成以下准备工作:

  1. 安装PostgreSQL数据库(建议使用较新版本)
  2. 安装ClickHouse数据库
  3. 安装ClickHouse ODBC驱动

完成基础环境准备后,在PostgreSQL中创建扩展:

CREATE EXTENSION clickhousedb_fdw;

示例数据准备

为了更好地演示功能,我们首先在ClickHouse中创建示例数据库和表结构:

CREATE DATABASE test_database;

USE test_database;

CREATE TABLE tax_bills_nyc (
    bbl Int64,
    owner_name String,
    address String,
    tax_class String,
    tax_rate String,
    emv Float64,
    tbea Float64,
    bav Float64,
    tba String,
    property_tax String,
    condonumber String,
    condo String,
    insertion_date DateTime MATERIALIZED now()
) ENGINE = MergeTree PARTITION BY tax_class ORDER BY (owner_name);

然后导入示例数据:

curl -X GET 'http://taxbills.nyc/tax_bills_june15_bbls.csv' | \
clickhouse-client --input_format_allow_errors_num=10 \
--query="INSERT INTO test_database.tax_bills_nyc FORMAT CSV"

PostgreSQL端配置

在PostgreSQL中,我们需要配置外部服务器、用户映射和外部表:

-- 创建外部服务器连接
CREATE SERVER clickhouse_svr 
FOREIGN DATA WRAPPER clickhousedb_fdw 
OPTIONS(
    dbname 'test_database', 
    driver '/path/to/libclickhouseodbc.so', 
    host '127.0.0.1'
);

-- 创建用户映射
CREATE USER MAPPING FOR CURRENT_USER SERVER clickhouse_svr;

-- 创建外部表映射
CREATE FOREIGN TABLE tax_bills_nyc (
    bbl int8,
    owner_name text,
    address text,
    tax_class text,
    tax_rate text,
    emv Float,
    tbea Float,
    bav Float,
    tba text,
    property_tax text,
    condonumber text,
    condo text,
    insertion_date Time
) SERVER clickhouse_svr;

基本查询操作

配置完成后,可以像查询普通PostgreSQL表一样查询ClickHouse数据:

SELECT bbl, tbea, bav, insertion_date 
FROM tax_bills_nyc 
LIMIT 5;

高级功能

聚合下推(Aggregate Pushdown)

ClickHouseDB FDW支持聚合下推功能,可以将聚合操作下推到ClickHouse执行,显著提高性能:

-- 聚合操作在PostgreSQL端执行
EXPLAIN VERBOSE SELECT count(bbl) FROM tax_bills_nyc LIMIT 5;

-- 聚合操作下推到ClickHouse执行
EXPLAIN VERBOSE SELECT count(bbl) FROM tax_bills_nyc;

连接下推(Join Pushdown)

同样支持连接操作的下推,减少数据传输量:

EXPLAIN VERBOSE 
SELECT t2.bbl, t2.owner_name, t1.bav 
FROM tax_bills_nyc t1 
RIGHT OUTER JOIN tax_bills t2 ON (t1.bbl = t2.bbl);

性能优化建议

  1. 合理设计分区键:在ClickHouse端根据查询模式设计合理的分区策略
  2. 使用下推功能:尽可能利用聚合下推和连接下推减少数据传输
  3. 数据类型映射:注意PostgreSQL和ClickHouse之间的数据类型差异
  4. 网络优化:确保PostgreSQL和ClickHouse服务器之间的网络连接稳定高效

当前限制

  1. 不支持所有ClickHouse配置参数的映射
  2. 复杂连接下推的支持有限
  3. 从ClickHouse分区删除数据的支持不完善

结语

ClickHouseDB FDW为PostgreSQL用户提供了访问ClickHouse数据的便捷通道,特别适合需要在PostgreSQL中分析ClickHouse海量数据的场景。通过合理使用其高级功能,可以构建高效的数据分析管道,充分发挥两种数据库各自的优势。

登录后查看全文
热门项目推荐

项目优选

收起
kernelkernel
deepin linux kernel
C
22
6
docsdocs
OpenHarmony documentation | OpenHarmony开发者文档
Dockerfile
202
2.17 K
ohos_react_nativeohos_react_native
React Native鸿蒙化仓库
C++
208
285
pytorchpytorch
Ascend Extension for PyTorch
Python
61
94
RuoYi-Vue3RuoYi-Vue3
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
977
575
nop-entropynop-entropy
Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台,包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分,采用java语言实现,可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用
Java
9
1
ops-mathops-math
本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。
C++
550
83
openHiTLSopenHiTLS
旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!
C
1.02 K
399
communitycommunity
本项目是CANN开源社区的核心管理仓库,包含社区的治理章程、治理组织、通用操作指引及流程规范等基础信息
393
27
MateChatMateChat
前端智能化场景解决方案UI库,轻松构建你的AI应用,我们将持续完善更新,欢迎你的使用与建议。 官网地址:https://matechat.gitcode.com
1.2 K
133