首页
/ Apache Doris SELECT查询语句完全指南

Apache Doris SELECT查询语句完全指南

2025-06-27 01:21:36作者:翟江哲Frasier

概述

SELECT语句是SQL中最核心、最常用的查询语句,用于从数据库中检索数据。在Apache Doris中,SELECT语句功能强大且灵活,支持多种查询方式和优化手段。本文将全面介绍Apache Doris中SELECT语句的语法结构、使用方法和最佳实践。

基础语法结构

Apache Doris的SELECT语句基本语法如下:

SELECT
    [hint_statement, ...]
    [ALL | DISTINCT | DISTINCTROW | ALL EXCEPT ( col_name1 [, col_name2, col_name3, ...] )]
    select_expr [, select_expr ...]
    [FROM table_references
      [PARTITION partition_list]
      [TABLET tabletid_list]
      [TABLESAMPLE sample_value [ROWS | PERCENT]
        [REPEATABLE pos_seek]]
    [WHERE where_condition]
    [GROUP BY [GROUPING SETS | ROLLUP | CUBE] {col_name | expr | position}]
    [HAVING where_condition]
    [ORDER BY {col_name | expr | position}
      [ASC | DESC], ...]
    [LIMIT {[offset,] row_count | row_count OFFSET offset}]
    [INTO OUTFILE 'file_name']

核心子句详解

1. 选择列(select_expr)

选择列部分指定要查询的字段,可以使用表达式和函数:

-- 基本字段选择
SELECT id, name FROM students;

-- 使用表达式
SELECT id, score * 1.1 AS new_score FROM exams;

-- 使用函数
SELECT COUNT(*) AS total FROM users;

2. 数据来源(FROM)

FROM子句指定数据来源表,支持多种形式:

-- 单表查询
SELECT * FROM products;

-- 多表连接
SELECT a.id, b.name FROM table_a a JOIN table_b b ON a.id = b.a_id;

-- 使用分区剪枝优化
SELECT * FROM sales PARTITION (p2023);

3. 条件过滤(WHERE)

WHERE子句用于过滤行数据:

-- 基本条件
SELECT * FROM employees WHERE salary > 5000;

-- 复合条件
SELECT * FROM orders 
WHERE order_date > '2023-01-01' AND status = 'completed';

-- 使用函数条件
SELECT * FROM logs WHERE LENGTH(message) > 100;

4. 结果去重(DISTINCT)

DISTINCT关键字用于去除重复行:

-- 去除重复值
SELECT DISTINCT department FROM employees;

-- Apache Doris 1.2+ 新增的ALL EXCEPT语法
SELECT * EXCEPT(sensitive_column) FROM user_data;

5. 分组聚合(GROUP BY)

GROUP BY用于数据分组和聚合计算:

-- 基本分组
SELECT department, AVG(salary) FROM employees GROUP BY department;

-- 使用GROUPING SETS
SELECT year, month, SUM(sales) 
FROM sales_data 
GROUP BY GROUPING SETS ((year), (year, month));

-- 使用HAVING过滤分组结果
SELECT department, COUNT(*) 
FROM employees 
GROUP BY department 
HAVING COUNT(*) > 10;

6. 结果排序(ORDER BY)

ORDER BY用于结果排序:

-- 单列排序
SELECT * FROM products ORDER BY price DESC;

-- 多列排序
SELECT * FROM students ORDER BY grade DESC, name ASC;

-- 注意:大数据量排序需配合LIMIT使用
SELECT * FROM large_table ORDER BY create_time DESC LIMIT 100;

7. 结果限制(LIMIT)

LIMIT限制返回结果数量:

-- 限制返回行数
SELECT * FROM logs LIMIT 10;

-- 分页查询
SELECT * FROM users ORDER BY id LIMIT 20 OFFSET 40;

高级查询功能

1. 连接查询(JOIN)

Apache Doris支持多种连接方式:

-- 内连接
SELECT a.id, b.name 
FROM table_a a INNER JOIN table_b b 
ON a.id = b.a_id;

-- 左外连接
SELECT a.id, b.name 
FROM table_a a LEFT JOIN table_b b 
ON a.id = b.a_id;

-- 右外连接
SELECT a.id, b.name 
FROM table_a a RIGHT JOIN table_b b 
ON a.id = b.a_id;

-- 交叉连接
SELECT * FROM table_a CROSS JOIN table_b;

2. 联合查询(UNION)

UNION合并多个查询结果:

-- 去重合并
SELECT a FROM t1 UNION SELECT a FROM t2;

-- 保留所有行合并
SELECT a FROM t1 UNION ALL SELECT a FROM t2;

3. 公共表表达式(WITH)

WITH子句定义临时结果集:

WITH regional_sales AS (
    SELECT region, SUM(amount) AS total_sales
    FROM orders
    GROUP BY region
)
SELECT region, total_sales 
FROM regional_sales 
WHERE total_sales > 100000;

4. 数据采样(TABLESAMPLE)

TABLESAMPLE实现数据采样:

-- 采样1000行
SELECT * FROM large_table TABLESAMPLE(1000 ROWS);

-- 采样1%数据
SELECT * FROM large_table TABLESAMPLE(1 PERCENT);

最佳实践建议

  1. 查询优化建议

    • 充分利用分区和分桶条件减少数据扫描范围
    • 将前缀索引字段作为优先过滤条件
    • 大数据量排序务必配合LIMIT使用
  2. 性能注意事项

    • ORDER BY是资源密集型操作,建议限制结果集大小
    • HAVING在最后执行,不如WHERE高效
    • UNION ALL比UNION DISTINCT性能更好
  3. 语法规范建议

    • 为列指定明确的别名(使用AS关键字)
    • 复杂查询使用WITH子句提高可读性
    • 遵循标准的子句顺序(WHERE → GROUP BY → HAVING → ORDER BY → LIMIT)
  4. 特殊场景处理

    • 分页查询使用LIMIT offset, row_count语法
    • 模糊查询使用LIKE和通配符(%和_)
    • 使用CONCAT连接多列数据

常见查询示例

  1. 基础查询
-- 查询18、20、25岁的学生姓名
SELECT name FROM student WHERE age IN (18, 20, 25);
  1. 聚合查询
-- 按类型分组计算图书平均价格
SELECT type, AVG(price) FROM tb_book GROUP BY type;
  1. 排序分页
-- 查询价格最高的3本图书
SELECT * FROM tb_book ORDER BY price DESC LIMIT 3;
  1. 模糊查询
-- 查找名称第二个字符是h的图书
SELECT * FROM tb_book WHERE name LIKE '_h%';
  1. 复杂连接
-- 多表连接查询
SELECT t1.name, t2.salary, t3.department
FROM employee t1 
JOIN info t2 ON t1.name = t2.name
JOIN dept t3 ON t1.dept_id = t3.id;

通过掌握Apache Doris SELECT语句的各种用法和优化技巧,可以高效地从海量数据中提取所需信息,满足各类数据分析需求。

登录后查看全文
热门项目推荐

热门内容推荐

最新内容推荐

项目优选

收起
ohos_react_nativeohos_react_native
React Native鸿蒙化仓库
C++
176
260
RuoYi-Vue3RuoYi-Vue3
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
854
505
openGauss-serveropenGauss-server
openGauss kernel ~ openGauss is an open source relational database management system
C++
129
182
openHiTLSopenHiTLS
旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!
C
254
295
ShopXO开源商城ShopXO开源商城
🔥🔥🔥ShopXO企业级免费开源商城系统,可视化DIY拖拽装修、包含PC、H5、多端小程序(微信+支付宝+百度+头条&抖音+QQ+快手)、APP、多仓库、多商户、多门店、IM客服、进销存,遵循MIT开源协议发布、基于ThinkPHP8框架研发
JavaScript
93
15
Cangjie-ExamplesCangjie-Examples
本仓将收集和展示高质量的仓颉示例代码,欢迎大家投稿,让全世界看到您的妙趣设计,也让更多人通过您的编码理解和喜爱仓颉语言。
Cangjie
331
1.08 K
HarmonyOS-ExamplesHarmonyOS-Examples
本仓将收集和展示仓颉鸿蒙应用示例代码,欢迎大家投稿,在仓颉鸿蒙社区展现你的妙趣设计!
Cangjie
397
370
note-gennote-gen
一款跨平台的 Markdown AI 笔记软件,致力于使用 AI 建立记录和写作的桥梁。
TSX
83
4
CangjieCommunityCangjieCommunity
为仓颉编程语言开发者打造活跃、开放、高质量的社区环境
Markdown
1.07 K
0
kernelkernel
deepin linux kernel
C
21
5