首页
/ Meesho/BharatMLStack在线特征存储数据格式深度解析

Meesho/BharatMLStack在线特征存储数据格式深度解析

2025-06-19 02:22:59作者:董斯意

引言

在机器学习系统中,特征存储是连接离线训练和在线推理的关键组件。Meesho/BharatMLStack项目设计了一套高效的数据存储格式体系,专门针对在线特征存储场景进行了优化。本文将深入解析其核心数据格式设计,包括永久存储格式PSDB和缓存存储格式CSDB。

PSDB格式详解

PSDB(Permanent Storage Data Block)是专为ScyllaDB等永久存储系统设计的二进制数据格式,具有紧凑、版本化和模式感知的特点。

核心设计理念

  1. 存储效率优先:采用紧凑的二进制布局,最小化存储空间占用
  2. 版本兼容性:内置版本控制机制,支持模式演进
  3. 类型丰富:支持从标量到高维向量的多种数据类型
  4. 性能优化:针对高频读取场景进行特殊优化

二进制结构解剖

PSDB采用分层头部设计,各字段精心排布以实现最佳空间利用率:

┌─────────────────┬─────────────────┬───────────────┬───────────────┐
│ 特征模式版本(2B)│ 过期时间戳(5B) │ 布局版本(4b)  │ 压缩类型(3b)  │
├─────────────────┴─────────────────┴───────────────┴───────────────┤
│ 数据类型(5b) │ 布尔最后有效位(4b) │         数据区(变长)         │
└───────────────────────────────────────────────────────────────────┘

数据类型支持矩阵

PSDB支持的数据类型可分为两大类:

标量类型

类型分类 具体类型 存储大小 典型应用场景
浮点数 FP32/FP16/FP8 4B/2B/1B 常规特征值
整数 Int32/Int16/Int8 4B/2B/1B ID类特征
布尔 Bool 位压缩 标志位特征
字符串 String 变长(Pascal式) 文本类特征

向量类型

类型分类 容器格式 特点
浮点向量 [][]float32 二维浮点数组
整型向量 [][]int32 二维整型数组
字符串向量 [][]string 二维字符串数组

编码技术深度解析

字符串编码

采用Pascal式长度前缀编码:

  1. 先存储2字节长度标识
  2. 随后紧跟实际字符串内容
  3. 最大支持65536字节长度

优势:相比C风格字符串,可以快速定位字符串边界,避免扫描整个缓冲区。

布尔值编码

创新性使用位打包技术:

  • 传统方式:1布尔值=1字节
  • PSDB方式:1布尔值=1位
  • 额外维护"最后有效位"索引,加速解码

向量编码策略

  1. 维度校验:写入前验证向量长度是否符合模式定义
  2. 行优先展平:将多维数组连续存储,消除维度分隔符
  3. 隐式重构:利用元数据中的向量长度信息重建维度

压缩方案

采用智能压缩策略:

  1. 仅压缩数据区,保持头部可快速访问
  2. 自动选择ZSTD压缩或原始存储(基于压缩率)
  3. TTL有效时才执行解压,减少无效计算

CSDB格式设计

CSDB(Cache Storage Data Block)是为缓存层(如DragonflyDB/Redis)优化的数据容器格式。

架构设计哲学

  1. 读写分离:序列化与反序列化路径解耦
  2. 惰性加载:按需反序列化特定特征组
  3. 空间效率:支持负缓存和紧凑存储

内存布局优化

type CacheStorageDataBlock struct {
    FGIdToDDB      map[int]*DeserializedPSDB // 8B对齐
    serializedCSDB []byte                    // 24B(ptr+len+cap)
    TTL            uint32                    // 4B
    layoutVersion  uint8                     // 1B
    cacheType      CacheType                 // 1B
    _              [2]byte                   // 填充对齐
}

关键优化点:

  • 8字节边界对齐指针
  • 合并小字段减少内存碎片
  • 显式填充保证CPU缓存友好

二进制序列化格式

[版本(1B)][FGID(2B)][数据长度(2B)][数据...]*

特征组数据连续存储,支持:

  • 快速跳过不需要的FGID
  • 零长度表示负缓存
  • 随机访问特定特征组

缓存类型对比

维度 内存缓存 分布式缓存
存储形式 Go原生对象 序列化字节流
反序列化 按需部分加载 全量或部分加载
压缩 可选 通常启用
最佳场景 单进程高频访问 多节点共享

性能优化实践

部分反序列化技术

CSDB部分解压示意图

  1. 仅解压请求的特征组
  2. 跳过无关数据块
  3. 避免不必要的解压缩计算

实际应用建议

  1. 特征分组策略:将相关特征放在同一FGID,提高局部性
  2. 版本管理:合理规划特征模式版本,平衡灵活性和兼容性
  3. 缓存策略:根据访问模式选择合适缓存类型
  4. 监控指标:关注压缩率、反序列化耗时等关键指标

总结

Meesho/BharatMLStack的在线特征存储数据格式设计体现了多项精妙权衡:

  • 在存储效率与访问速度间取得平衡
  • 在灵活性类型支持与紧凑存储间找到最优解
  • 在通用性与场景定制化间保持适当张力

这种专业级的数据格式设计,为高并发机器学习推理场景提供了坚实的数据基础设施支撑。

登录后查看全文
热门项目推荐

项目优选

收起
ohos_react_nativeohos_react_native
React Native鸿蒙化仓库
C++
176
261
RuoYi-Vue3RuoYi-Vue3
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
861
511
ShopXO开源商城ShopXO开源商城
🔥🔥🔥ShopXO企业级免费开源商城系统,可视化DIY拖拽装修、包含PC、H5、多端小程序(微信+支付宝+百度+头条&抖音+QQ+快手)、APP、多仓库、多商户、多门店、IM客服、进销存,遵循MIT开源协议发布、基于ThinkPHP8框架研发
JavaScript
93
15
openGauss-serveropenGauss-server
openGauss kernel ~ openGauss is an open source relational database management system
C++
129
182
openHiTLSopenHiTLS
旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!
C
259
300
kernelkernel
deepin linux kernel
C
22
5
cherry-studiocherry-studio
🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端
TypeScript
596
57
CangjieCommunityCangjieCommunity
为仓颉编程语言开发者打造活跃、开放、高质量的社区环境
Markdown
1.07 K
0
HarmonyOS-ExamplesHarmonyOS-Examples
本仓将收集和展示仓颉鸿蒙应用示例代码,欢迎大家投稿,在仓颉鸿蒙社区展现你的妙趣设计!
Cangjie
398
371
Cangjie-ExamplesCangjie-Examples
本仓将收集和展示高质量的仓颉示例代码,欢迎大家投稿,让全世界看到您的妙趣设计,也让更多人通过您的编码理解和喜爱仓颉语言。
Cangjie
332
1.08 K