Apache Doris SELECT查询语句完全指南

2025-06-27 18:57:39作者：翟江哲Frasier

概述

SELECT语句是SQL中最核心、最常用的查询语句，用于从数据库中检索数据。在Apache Doris中，SELECT语句功能强大且灵活，支持多种查询方式和优化手段。本文将全面介绍Apache Doris中SELECT语句的语法结构、使用方法和最佳实践。

基础语法结构

Apache Doris的SELECT语句基本语法如下：

SELECT
    [hint_statement, ...]
    [ALL | DISTINCT | DISTINCTROW | ALL EXCEPT ( col_name1 [, col_name2, col_name3, ...] )]
    select_expr [, select_expr ...]
    [FROM table_references
      [PARTITION partition_list]
      [TABLET tabletid_list]
      [TABLESAMPLE sample_value [ROWS | PERCENT]
        [REPEATABLE pos_seek]]
    [WHERE where_condition]
    [GROUP BY [GROUPING SETS | ROLLUP | CUBE] {col_name | expr | position}]
    [HAVING where_condition]
    [ORDER BY {col_name | expr | position}
      [ASC | DESC], ...]
    [LIMIT {[offset,] row_count | row_count OFFSET offset}]
    [INTO OUTFILE 'file_name']

核心子句详解

1. 选择列(select_expr)

选择列部分指定要查询的字段，可以使用表达式和函数：

-- 基本字段选择
SELECT id, name FROM students;

-- 使用表达式
SELECT id, score * 1.1 AS new_score FROM exams;

-- 使用函数
SELECT COUNT(*) AS total FROM users;

2. 数据来源(FROM)

FROM子句指定数据来源表，支持多种形式：

-- 单表查询
SELECT * FROM products;

-- 多表连接
SELECT a.id, b.name FROM table_a a JOIN table_b b ON a.id = b.a_id;

-- 使用分区剪枝优化
SELECT * FROM sales PARTITION (p2023);

3. 条件过滤(WHERE)

WHERE子句用于过滤行数据：

-- 基本条件
SELECT * FROM employees WHERE salary > 5000;

-- 复合条件
SELECT * FROM orders 
WHERE order_date > '2023-01-01' AND status = 'completed';

-- 使用函数条件
SELECT * FROM logs WHERE LENGTH(message) > 100;

4. 结果去重(DISTINCT)

DISTINCT关键字用于去除重复行：

-- 去除重复值
SELECT DISTINCT department FROM employees;

-- Apache Doris 1.2+ 新增的ALL EXCEPT语法
SELECT * EXCEPT(sensitive_column) FROM user_data;

5. 分组聚合(GROUP BY)

GROUP BY用于数据分组和聚合计算：

-- 基本分组
SELECT department, AVG(salary) FROM employees GROUP BY department;

-- 使用GROUPING SETS
SELECT year, month, SUM(sales) 
FROM sales_data 
GROUP BY GROUPING SETS ((year), (year, month));

-- 使用HAVING过滤分组结果
SELECT department, COUNT(*) 
FROM employees 
GROUP BY department 
HAVING COUNT(*) > 10;

6. 结果排序(ORDER BY)

ORDER BY用于结果排序：

-- 单列排序
SELECT * FROM products ORDER BY price DESC;

-- 多列排序
SELECT * FROM students ORDER BY grade DESC, name ASC;

-- 注意：大数据量排序需配合LIMIT使用
SELECT * FROM large_table ORDER BY create_time DESC LIMIT 100;

7. 结果限制(LIMIT)

LIMIT限制返回结果数量：

-- 限制返回行数
SELECT * FROM logs LIMIT 10;

-- 分页查询
SELECT * FROM users ORDER BY id LIMIT 20 OFFSET 40;

高级查询功能

1. 连接查询(JOIN)

Apache Doris支持多种连接方式：

-- 内连接
SELECT a.id, b.name 
FROM table_a a INNER JOIN table_b b 
ON a.id = b.a_id;

-- 左外连接
SELECT a.id, b.name 
FROM table_a a LEFT JOIN table_b b 
ON a.id = b.a_id;

-- 右外连接
SELECT a.id, b.name 
FROM table_a a RIGHT JOIN table_b b 
ON a.id = b.a_id;

-- 交叉连接
SELECT * FROM table_a CROSS JOIN table_b;

2. 联合查询(UNION)

UNION合并多个查询结果：

-- 去重合并
SELECT a FROM t1 UNION SELECT a FROM t2;

-- 保留所有行合并
SELECT a FROM t1 UNION ALL SELECT a FROM t2;

3. 公共表表达式(WITH)

WITH子句定义临时结果集：

WITH regional_sales AS (
    SELECT region, SUM(amount) AS total_sales
    FROM orders
    GROUP BY region
)
SELECT region, total_sales 
FROM regional_sales 
WHERE total_sales > 100000;

4. 数据采样(TABLESAMPLE)

TABLESAMPLE实现数据采样：

-- 采样1000行
SELECT * FROM large_table TABLESAMPLE(1000 ROWS);

-- 采样1%数据
SELECT * FROM large_table TABLESAMPLE(1 PERCENT);

最佳实践建议

查询优化建议
- 充分利用分区和分桶条件减少数据扫描范围
- 将前缀索引字段作为优先过滤条件
- 大数据量排序务必配合LIMIT使用
性能注意事项
- ORDER BY是资源密集型操作，建议限制结果集大小
- HAVING在最后执行，不如WHERE高效
- UNION ALL比UNION DISTINCT性能更好
语法规范建议
- 为列指定明确的别名(使用AS关键字)
- 复杂查询使用WITH子句提高可读性
- 遵循标准的子句顺序(WHERE → GROUP BY → HAVING → ORDER BY → LIMIT)
特殊场景处理
- 分页查询使用LIMIT offset, row_count语法
- 模糊查询使用LIKE和通配符(%和_)
- 使用CONCAT连接多列数据

常见查询示例

基础查询

-- 查询18、20、25岁的学生姓名
SELECT name FROM student WHERE age IN (18, 20, 25);

聚合查询

-- 按类型分组计算图书平均价格
SELECT type, AVG(price) FROM tb_book GROUP BY type;

排序分页

-- 查询价格最高的3本图书
SELECT * FROM tb_book ORDER BY price DESC LIMIT 3;

模糊查询

-- 查找名称第二个字符是h的图书
SELECT * FROM tb_book WHERE name LIKE '_h%';

复杂连接

-- 多表连接查询
SELECT t1.name, t2.salary, t3.department
FROM employee t1 
JOIN info t2 ON t1.name = t2.name
JOIN dept t3 ON t1.dept_id = t3.id;

通过掌握Apache Doris SELECT语句的各种用法和优化技巧，可以高效地从海量数据中提取所需信息，满足各类数据分析需求。

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。