Apache Doris CREATE TABLE 语句详解与最佳实践

2025-06-27 23:57:40作者：羿妍玫Ivan

概述

在Apache Doris中，CREATE TABLE语句是构建数据仓库的基础操作，它允许用户在当前或指定数据库中创建新表。本文将深入解析CREATE TABLE语句的语法结构、参数含义以及实际应用场景，帮助用户掌握在Doris中创建表的核心技术。

基本语法结构

CREATE TABLE语句的基本语法如下：

CREATE [ TEMPORARY | EXTERNAL ] TABLE [ IF NOT EXISTS ] <table_name>
    (<columns_definition> [ <indexes_definition> ])
    [ ENGINE = <table_engine_type> ]
    [ <key_type> KEY (<key_cols>)
        [ CLUSTER BY (<cluster_cols>) ]
    ]
    [ COMMENT '<table_comment>' ]
    [ <partitions_definition> ]
    [ DISTRIBUTED BY { HASH (<distribute_cols>) | RANDOM }
        [ BUCKETS { <bucket_count> | AUTO } ]
    ]
    [ <roll_up_definition> ]
    [ PROPERTIES (
          -- Table property
          <table_property>
          -- Additional table properties
          [ , ... ]) 
    ]

核心参数解析

1. 表名与列定义

表名(table_name)：

必须符合Doris的标识符规则
在当前数据库中必须唯一
不能使用保留关键字

列定义(columns_definition)：每个列定义包含以下元素：

列名(col_name)：遵循标识符规则
数据类型(col_type)：支持多种SQL数据类型
可选属性：
- KEY：指定是否为键列
- 聚合类型(col_aggregate_type)：仅用于聚合模型
- 生成列表达式(GENERATED ALWAYS AS)
- 空值约束([NOT] NULL)
- 自增列(AUTO_INCREMENT)
- 默认值(DEFAULT)
- 更新时间戳(ON UPDATE CURRENT_TIMESTAMP)

2. 数据模型相关参数

Doris支持三种数据模型：

明细模型(DUPLICATE KEY)：
- 保留所有导入数据
- 适合原始数据存储
聚合模型(AGGREGATE KEY)：
- 相同Key列的值会按指定聚合方式合并
- 适合数据汇总分析
主键模型(UNIQUE KEY)：
- 相同Key列的数据会按REPLACE策略处理
- 适合需要唯一约束的场景

CLUSTER BY：

仅用于主键模型
指定数据在tablet内的排序方式
可替代KEY列的排序功能

3. 分区与分桶

分区(partitions_definition)：

支持自动分区和手动分区
自动分区：基于时间函数自动创建分区
手动分区：支持RANGE和LIST两种方式

分桶(DISTRIBUTED BY)：

支持HASH和RANDOM两种分桶方式
可指定分桶数量(BUCKETS)
支持自动分桶(AUTO)

4. 高级特性

生成列：

通过表达式自动计算列值
减少存储空间，提高查询效率
语法：[ GENERATED ALWAYS ] AS (<col_generate_expression>)

自增列：

自动为未指定值的行分配唯一值
语法：AUTO_INCREMENT(<col_auto_increment_start_value>)

索引(indexes_definition)：

支持倒排索引(INVERTED)
可加速特定查询条件

变体语法

1. CTAS (CREATE TABLE AS SELECT)

CREATE TABLE <table_name> [ ( <column_definitions> ) ] AS <query>;

特点：

创建表并填充查询结果数据
自动推断列类型
适合数据转换和预处理

2. CREATE TABLE LIKE

CREATE TABLE <new_table_name> LIKE <existing_table_name>
[ WITH ROLLUP ( <rollup_list> ) ];

特点：

复制表结构不复制数据
可选择性复制物化视图
适合创建结构相同的临时表

最佳实践建议

键列选择：
- 将高频查询条件列设为键列
- 键列顺序影响查询性能
- 避免使用过多键列(通常3-5个)
分区设计：
- 按时间分区是常见做法
- 单个分区数据量建议在1-10GB
- 避免创建过多小分区
分桶策略：
- 选择高基数列作为分桶列
- 分桶数应与节点数匹配
- 考虑使用自动分桶(AUTO)
压缩设置：
- 默认LZ4适合大多数场景
- 对存储敏感场景可考虑ZSTD
副本设置：
- 生产环境建议3副本
- 测试环境可减少副本数
- 使用replication_allocation实现细粒度控制

常见问题解答

Q: 如何选择合适的数据模型？ A: 根据业务需求选择：需要原始数据用明细模型，需要汇总用聚合模型，需要唯一约束用主键模型。

Q: 自动分区和手动分区如何选择？ A: 时间序列数据适合自动分区，其他场景建议手动分区以获得更好控制。

Q: 为什么查询性能不稳定？ A: 检查分桶列选择是否合理，数据分布是否均匀，可考虑使用自动分桶。

Q: 如何优化大宽表？ A: 合理设置键列，使用生成列减少存储，考虑垂直拆分。

通过本文的详细解析，相信您已经掌握了Apache Doris中CREATE TABLE语句的核心要点。合理设计表结构是构建高效数据仓库的基础，建议在实际应用中结合业务特点灵活运用这些技术。

登录后查看全文

项目优选

收起

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

456

438

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

Apache Doris CREATE TABLE 语句详解与最佳实践

概述

基本语法结构

核心参数解析

1. 表名与列定义

2. 数据模型相关参数

3. 分区与分桶

4. 高级特性

变体语法

1. CTAS (CREATE TABLE AS SELECT)

2. CREATE TABLE LIKE

最佳实践建议

常见问题解答

热门内容推荐

最新内容推荐

项目优选

Apache Doris CREATE TABLE 语句详解与最佳实践

概述

基本语法结构

核心参数解析

1. 表名与列定义

2. 数据模型相关参数

3. 分区与分桶

4. 高级特性

变体语法

1. CTAS (CREATE TABLE AS SELECT)

2. CREATE TABLE LIKE

最佳实践建议

常见问题解答

相关内容推荐

热门内容推荐

最新内容推荐

项目优选