OceanBase存储压缩技术：高压缩比与性能平衡的实现

2026-02-05 05:48:49作者：袁立春Spencer

你是否还在为数据库存储成本高企而烦恼？是否在追求极致压缩率时遭遇性能瓶颈？本文将深入解析OceanBase存储引擎如何通过创新的压缩技术，在高达70%的存储节省与毫秒级响应时间之间找到完美平衡点，让你彻底告别"鱼和熊掌不可兼得"的困境。

读完本文你将掌握：

OceanBase三级压缩架构的工作原理
如何根据业务场景选择最优压缩策略
压缩技术在实际生产环境中的性能表现
源码级别的压缩参数调优方法

压缩技术架构概览

OceanBase采用三级压缩架构实现存储效率与访问性能的动态平衡，从数据写入到读取形成完整的优化闭环。这种架构在src/storage/blocksstable/ob_block_sstable_struct.h中有详细定义，通过宏块(Macro Block)和微块(Micro Block)的分层设计，实现不同粒度的数据压缩管理。

三级压缩架构

列级编码：针对不同数据类型应用专用编码算法，如整数差值编码、字符串前缀压缩等
块级压缩：对编码后的数据块采用LZ4/Snappy等快速压缩算法
页级压缩：对存储页面进行二次压缩优化，适应冷热数据访问特性

核心压缩组件

压缩系统的核心实现分布在以下模块：

压缩算法管理：lib/compress/ob_compress_util.h
块压缩控制：src/storage/blocksstable/ob_block_sstable_struct.h
编码策略选择：src/storage/blocksstable/encoding/ob_encoding_util.h
存储环境配置：src/storage/blocksstable/ob_log_file_spec.h

压缩算法深度解析

OceanBase支持多种压缩算法，每种算法都有其适用场景和性能特性。在src/storage/blocksstable/ob_block_sstable_struct.h中定义了压缩算法类型枚举ObCompressorType，包含LZ4、Snappy、ZSTD等主流算法。

算法性能对比

压缩算法	压缩比	压缩速度(MB/s)	解压速度(MB/s)	适用场景
LZ4	2.5-3x	400-600	1500-2000	热数据、实时查询
Snappy	2-2.5x	500-700	1000-1500	日志、临时数据
ZSTD	3.5-5x	200-300	500-800	冷数据、归档存储

自适应压缩策略

OceanBase压缩系统最智能之处在于其自适应选择机制。在src/storage/blocksstable/ob_micro_block_encoder.cpp中实现了基于数据特征的压缩算法动态选择逻辑：

ObCompressorType ObMicroBlockEncoder::select_compressor(
    const ObMicroBlockEncodingCtx &ctx, 
    const char *data, 
    const int64_t data_len) {
  // 根据数据类型和大小选择压缩算法
  if (is_hot_data(ctx) && data_len < 64 * 1024) {
    return LZ4_COMPRESSOR;
  } else if (is_cold_data(ctx)) {
    return ZSTD_COMPRESSOR;
  } else {
    return SNAPPY_COMPRESSOR;
  }
}

列级编码技术

OceanBase的压缩能力很大程度上源于其列存架构与列级编码的深度结合。在src/storage/blocksstable/cs_encoding/ob_column_encoding_struct.h中定义了十余种列编码算法，针对不同数据类型进行专项优化。

常用列编码算法

字典编码(DICT)：对重复字符串高效压缩，适用于枚举类型字段
整数差值编码(INTEGER_BASE_DIFF)：优化有序整数序列存储
字符串前缀编码(STRING_PREFIX)：压缩URL、邮箱等具有公共前缀的数据
常量编码(CONST)：对全表相同值的列直接存储单一值
RLE编码：优化连续重复数据存储

编码算法选择逻辑

编码算法的选择由src/storage/blocksstable/encoding/ob_encoding_util.h中的ObEncodingUtil类实现，通过分析数据特征自动选择最优编码方式：

int ObEncodingUtil::select_best_encoding(
    const ObColumnEncodingCtx &ctx, 
    ObColumnHeader::Type &best_type) {
  // 分析数据特征选择最优编码
  if (ctx.null_cnt_ == 0 && is_constant_data(ctx)) {
    best_type = ObColumnHeader::CONST;
  } else if (is_string_type(ctx) && has_common_prefix(ctx)) {
    best_type = ObColumnHeader::STRING_PREFIX;
  } else if (is_integer_type(ctx) && is_sequential(ctx)) {
    best_type = ObColumnHeader::INTEGER_BASE_DIFF;
  }
  // ...其他编码类型判断
  return OB_SUCCESS;
}

性能优化实践

压缩技术在带来存储节省的同时，也可能引入CPU开销和延迟。OceanBase通过多项创新技术将压缩对性能的影响降至最低，实现"零感知"压缩体验。

压缩粒度控制

在src/storage/blocksstable/ob_block_sstable_struct.h中定义了ObMicroBlockEncodingCtx结构体，其中micro_block_size_参数控制压缩块大小，默认值为16KB：

struct ObMicroBlockEncodingCtx {
  // ...其他字段
  int64_t micro_block_size_;  // 微块大小，默认16KB
  ObCompressorType compressor_type_;  // 压缩算法类型
  // ...其他字段
};

块大小设置建议：

热数据：8-16KB，减少解压开销
温数据：32-64KB，平衡压缩率和性能
冷数据：128-256KB，最大化压缩效果

预压缩与缓存机制

OceanBase通过预压缩和缓存机制进一步提升压缩性能：

预压缩：后台线程提前对冷数据进行高比率压缩
压缩结果缓存：热门数据块的压缩结果缓存在内存中
并行解压：利用多核CPU并行处理多个压缩块的解压

这些机制在src/storage/blocksstable/ob_block_cache.h中有详细实现，通过缓存热点压缩块避免重复解压开销。

生产环境配置指南

OceanBase提供了丰富的参数配置项，允许用户根据业务需求定制压缩策略。主要配置项集中在src/storage/blocksstable/ob_log_file_spec.h和src/storage/ob_i_store.h中。

关键压缩参数

参数名	描述	默认值	建议值
default_block_size	宏块大小	2MB	4-8MB(机械盘)，1-2MB(SSD)
compressor_type	默认压缩算法	LZ4	热数据:LZ4，冷数据:ZSTD
micro_block_size	微块大小	16KB	8-64KB，根据访问模式调整
enable_bit_packing	启用位压缩	true	对整数类型建议开启

配置示例

-- 创建表时指定压缩策略
CREATE TABLE user_data (
  id INT PRIMARY KEY,
  name VARCHAR(50),
  email VARCHAR(100),
  login_time DATETIME
) COMPRESSION = 'LZ4' 
TABLET_SIZE = 134217728;

-- 为冷数据表修改压缩算法
ALTER TABLE archive_logs 
SET COMPRESSION = 'ZSTD';