Apache Doris 中的 HISTOGRAM 聚合函数详解

2025-06-27 06:57:48作者：余洋婵Anita

概述

在数据分析领域，了解数据分布情况是非常重要的基础工作。Apache Doris 提供的 HISTOGRAM 聚合函数能够帮助我们快速获取数据的分布特征，这对于数据探索、查询优化和性能调优都具有重要意义。

函数功能

HISTOGRAM 函数采用"等高"分桶策略，将数据按照值的大小划分到不同的桶中，然后对每个桶进行统计描述。这种分桶方式能够直观展示数据的分布密度和集中趋势。

语法结构

HISTOGRAM(<expr>[, <num_buckets>])

参数说明

参数名	描述
`expr`	需要进行分布分析的列或表达式
`num_buckets`	可选参数，指定分桶数量，默认为128

返回值解析

函数返回一个 JSON 格式的结果，包含以下关键信息：

num_buckets：实际生成的桶数量
buckets：所有桶的详细信息数组，每个桶包含：
- lower：桶的下界
- upper：桶的上界
- count：桶内元素数量
- pre_sum：前序所有桶的元素总数
- ndv：桶内不同值的数量

使用示例

基础用法

-- 分析c_float列的分布情况
SELECT histogram(c_float) FROM histogram_test;

指定桶数量

-- 限制只生成2个桶来分析c_string列
SELECT histogram(c_string, 2) FROM histogram_test;

结果解读

典型的返回结果如下：

{
    "num_buckets": 3,
    "buckets": [
        {
            "lower": "0.1",
            "upper": "0.2",
            "count": 2,
            "pre_sum": 0,
            "ndv": 2
        },
        {
            "lower": "0.8",
            "upper": "0.9",
            "count": 2,
            "pre_sum": 2,
            "ndv": 2
        },
        {
            "lower": "1.0",
            "upper": "1.0",
            "count": 2,
            "pre_sum": 4,
            "ndv": 1
        }
    ]
}

关键点说明：

第一个桶的pre_sum总是0，因为它前面没有其他桶
最后一个桶的count加上它的pre_sum就是数据的总行数
ndv表示桶内不同值的数量，可以帮助判断数据是否集中

应用场景

数据质量检查：快速发现数据分布是否均匀，是否存在异常值
查询优化：了解数据分布后可以优化查询计划
存储优化：根据数据分布特征选择合适的存储策略
监控指标：定期分析关键指标的分布变化

注意事项

对于NULL值，函数会直接返回NULL
桶数量参数应根据数据量和需求合理设置，过多会导致计算开销增大，过少则可能丢失重要分布特征
结果中的边界值包含在对应桶中

通过合理使用HISTOGRAM函数，数据分析师和开发人员可以快速掌握数据分布特征，为后续的数据处理和分析工作提供重要参考。

登录后查看全文

Apache Doris 中的 HISTOGRAM 聚合函数详解

概述

函数功能

语法结构

参数说明

返回值解析

使用示例

基础用法

指定桶数量

结果解读

应用场景

注意事项

热门内容推荐

项目优选

Apache Doris 中的 HISTOGRAM 聚合函数详解

概述

函数功能

语法结构

参数说明

返回值解析

使用示例

基础用法

指定桶数量

结果解读

应用场景

注意事项

相关内容推荐

热门内容推荐

项目优选