DuckDB查询执行机制深度解析：临时表与CTE的性能差异

2025-05-06 13:12:22作者：裘旻烁

概述

在使用DuckDB进行数据分析时，开发者经常会遇到查询性能差异的问题。本文将通过一个实际案例，深入探讨DuckDB中临时表(Temporary Table)和公共表表达式(CTE)在执行机制上的本质区别，以及它们对查询性能的影响。

问题现象

在DuckDB中执行相同逻辑的查询时，开发者观察到了显著的性能差异：

使用临时表方案时：
- 单纯执行查询耗时约40ms
- 查询后转换为DataFrame耗时约43.5ms
使用CTE方案时：
- 单纯执行查询仅耗时79μs（看似500倍性能提升）
- 但转换为DataFrame后耗时又回到约33.8ms

底层机制解析

这种性能差异源于DuckDB的查询执行模型：

1. 查询计划构建阶段

当调用db.sql()方法时，DuckDB仅构建查询计划(Query Plan)，而不会立即执行查询。这是一个轻量级的操作，主要涉及：

SQL解析
语法树生成
逻辑计划优化
物理计划生成

2. 查询执行阶段

真正的查询执行发生在需要实际获取结果时，例如调用：

.show() - 显示结果
.df() - 转换为Pandas DataFrame
.pl() - 转换为Polars DataFrame
.arrow() - 转换为Arrow格式
.fetchall() - 获取所有结果

3. 临时表与CTE的关键区别

临时表方案：

包含两个独立的SQL语句
第一个语句创建临时表并立即执行
第二个语句查询临时表
DuckDB无法将两个语句合并优化

CTE方案：

是单个查询的一部分
整个查询可以作为一个单元进行优化
执行被推迟到真正需要结果时

性能差异原因

观察到的性能差异并非真实存在，而是测量方式导致的误解：

当测量db.sql(query)时：
- 对于CTE：仅测量了查询计划构建时间（微秒级）
- 对于临时表：由于包含DDL语句，触发了部分执行
当测量db.sql(query).show()或.df()时：
- 都测量了完整的查询执行时间
- 两种方案的性能差异变得合理

最佳实践建议

理解惰性执行机制：
- 明确区分查询计划构建和实际执行
- 使用适当的测量方法（如%time print(db.sql(query))）
选择适当的查询结构：
- 对于复杂查询，优先使用CTE
- 临时表更适合需要重复使用的中间结果
性能优化方向：
- 关注实际执行时间而非计划构建时间
- 利用DuckDB的查询优化器优势

结论

DuckDB的查询执行模型采用了惰性评估策略，这种设计在提供灵活性的同时，也需要开发者理解其内部机制。通过本文的分析，开发者可以更准确地评估查询性能，并选择最适合特定场景的查询结构。记住，在分析性能时，应该关注实际执行阶段的耗时，而非仅仅是查询计划的构建时间。

duckdb

DuckDB is an analytical in-process SQL database management system

项目地址：https://gitcode.com/GitHub_Trending/du/duckdb

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

pytorch

Ascend Extension for PyTorch

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

atomcode

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

461

455

Cangjie-Examples

本仓将收集和展示高质量的仓颉示例代码，欢迎大家投稿，让全世界看到您的妙趣设计，也让更多人通过您的编码理解和喜爱仓颉语言。

458

5.24 K