首页
/ Meesho/BharatMLStack在线特征存储数据格式深度解析

Meesho/BharatMLStack在线特征存储数据格式深度解析

2025-06-19 03:31:30作者:董斯意

引言

在机器学习系统中,特征存储是连接离线训练和在线推理的关键组件。Meesho/BharatMLStack项目设计了一套高效的数据存储格式体系,专门针对在线特征存储场景进行了优化。本文将深入解析其核心数据格式设计,包括永久存储格式PSDB和缓存存储格式CSDB。

PSDB格式详解

PSDB(Permanent Storage Data Block)是专为ScyllaDB等永久存储系统设计的二进制数据格式,具有紧凑、版本化和模式感知的特点。

核心设计理念

  1. 存储效率优先:采用紧凑的二进制布局,最小化存储空间占用
  2. 版本兼容性:内置版本控制机制,支持模式演进
  3. 类型丰富:支持从标量到高维向量的多种数据类型
  4. 性能优化:针对高频读取场景进行特殊优化

二进制结构解剖

PSDB采用分层头部设计,各字段精心排布以实现最佳空间利用率:

┌─────────────────┬─────────────────┬───────────────┬───────────────┐
│ 特征模式版本(2B)│ 过期时间戳(5B) │ 布局版本(4b)  │ 压缩类型(3b)  │
├─────────────────┴─────────────────┴───────────────┴───────────────┤
│ 数据类型(5b) │ 布尔最后有效位(4b) │         数据区(变长)         │
└───────────────────────────────────────────────────────────────────┘

数据类型支持矩阵

PSDB支持的数据类型可分为两大类:

标量类型

类型分类 具体类型 存储大小 典型应用场景
浮点数 FP32/FP16/FP8 4B/2B/1B 常规特征值
整数 Int32/Int16/Int8 4B/2B/1B ID类特征
布尔 Bool 位压缩 标志位特征
字符串 String 变长(Pascal式) 文本类特征

向量类型

类型分类 容器格式 特点
浮点向量 [][]float32 二维浮点数组
整型向量 [][]int32 二维整型数组
字符串向量 [][]string 二维字符串数组

编码技术深度解析

字符串编码

采用Pascal式长度前缀编码:

  1. 先存储2字节长度标识
  2. 随后紧跟实际字符串内容
  3. 最大支持65536字节长度

优势:相比C风格字符串,可以快速定位字符串边界,避免扫描整个缓冲区。

布尔值编码

创新性使用位打包技术:

  • 传统方式:1布尔值=1字节
  • PSDB方式:1布尔值=1位
  • 额外维护"最后有效位"索引,加速解码

向量编码策略

  1. 维度校验:写入前验证向量长度是否符合模式定义
  2. 行优先展平:将多维数组连续存储,消除维度分隔符
  3. 隐式重构:利用元数据中的向量长度信息重建维度

压缩方案

采用智能压缩策略:

  1. 仅压缩数据区,保持头部可快速访问
  2. 自动选择ZSTD压缩或原始存储(基于压缩率)
  3. TTL有效时才执行解压,减少无效计算

CSDB格式设计

CSDB(Cache Storage Data Block)是为缓存层(如DragonflyDB/Redis)优化的数据容器格式。

架构设计哲学

  1. 读写分离:序列化与反序列化路径解耦
  2. 惰性加载:按需反序列化特定特征组
  3. 空间效率:支持负缓存和紧凑存储

内存布局优化

type CacheStorageDataBlock struct {
    FGIdToDDB      map[int]*DeserializedPSDB // 8B对齐
    serializedCSDB []byte                    // 24B(ptr+len+cap)
    TTL            uint32                    // 4B
    layoutVersion  uint8                     // 1B
    cacheType      CacheType                 // 1B
    _              [2]byte                   // 填充对齐
}

关键优化点:

  • 8字节边界对齐指针
  • 合并小字段减少内存碎片
  • 显式填充保证CPU缓存友好

二进制序列化格式

[版本(1B)][FGID(2B)][数据长度(2B)][数据...]*

特征组数据连续存储,支持:

  • 快速跳过不需要的FGID
  • 零长度表示负缓存
  • 随机访问特定特征组

缓存类型对比

维度 内存缓存 分布式缓存
存储形式 Go原生对象 序列化字节流
反序列化 按需部分加载 全量或部分加载
压缩 可选 通常启用
最佳场景 单进程高频访问 多节点共享

性能优化实践

部分反序列化技术

CSDB部分解压示意图

  1. 仅解压请求的特征组
  2. 跳过无关数据块
  3. 避免不必要的解压缩计算

实际应用建议

  1. 特征分组策略:将相关特征放在同一FGID,提高局部性
  2. 版本管理:合理规划特征模式版本,平衡灵活性和兼容性
  3. 缓存策略:根据访问模式选择合适缓存类型
  4. 监控指标:关注压缩率、反序列化耗时等关键指标

总结

Meesho/BharatMLStack的在线特征存储数据格式设计体现了多项精妙权衡:

  • 在存储效率与访问速度间取得平衡
  • 在灵活性类型支持与紧凑存储间找到最优解
  • 在通用性与场景定制化间保持适当张力

这种专业级的数据格式设计,为高并发机器学习推理场景提供了坚实的数据基础设施支撑。

登录后查看全文
热门项目推荐

项目优选

收起
kernelkernel
deepin linux kernel
C
24
9
nop-entropynop-entropy
Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台,包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分,采用java语言实现,可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用
Java
9
1
leetcodeleetcode
🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer(第 2 版)》、《程序员面试金典(第 6 版)》题解
Java
64
19
Cangjie-ExamplesCangjie-Examples
本仓将收集和展示高质量的仓颉示例代码,欢迎大家投稿,让全世界看到您的妙趣设计,也让更多人通过您的编码理解和喜爱仓颉语言。
Cangjie
392
3.89 K
flutter_flutterflutter_flutter
暂无简介
Dart
671
156
giteagitea
喝着茶写代码!最易用的自托管一站式代码托管平台,包含Git托管,代码审查,团队协作,软件包和CI/CD。
Go
23
0
ohos_react_nativeohos_react_native
React Native鸿蒙化仓库
JavaScript
261
322
ops-mathops-math
本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。
C++
661
311
RuoYi-Vue3RuoYi-Vue3
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
1.2 K
654
rainbondrainbond
无需学习 Kubernetes 的容器平台,在 Kubernetes 上构建、部署、组装和管理应用,无需 K8s 专业知识,全流程图形化管理
Go
15
1