Meesho/BharatMLStack在线特征存储数据格式深度解析

2025-06-19 02:11:03作者：董斯意

BharatMLStack is an open-source, end-to-end machine learning infrastructure stack built at Meesho to support real-time and batch ML workloads at Bharat scale

项目地址：https://gitcode.com/gh_mirrors/bh/BharatMLStack

引言

在机器学习系统中，特征存储是连接离线训练和在线推理的关键组件。Meesho/BharatMLStack项目设计了一套高效的数据存储格式体系，专门针对在线特征存储场景进行了优化。本文将深入解析其核心数据格式设计，包括永久存储格式PSDB和缓存存储格式CSDB。

PSDB格式详解

PSDB（Permanent Storage Data Block）是专为ScyllaDB等永久存储系统设计的二进制数据格式，具有紧凑、版本化和模式感知的特点。

核心设计理念

存储效率优先：采用紧凑的二进制布局，最小化存储空间占用
版本兼容性：内置版本控制机制，支持模式演进
类型丰富：支持从标量到高维向量的多种数据类型
性能优化：针对高频读取场景进行特殊优化

二进制结构解剖

PSDB采用分层头部设计，各字段精心排布以实现最佳空间利用率：

┌─────────────────┬─────────────────┬───────────────┬───────────────┐
│ 特征模式版本(2B)│ 过期时间戳(5B) │ 布局版本(4b)  │ 压缩类型(3b)  │
├─────────────────┴─────────────────┴───────────────┴───────────────┤
│ 数据类型(5b) │ 布尔最后有效位(4b) │         数据区(变长)         │
└───────────────────────────────────────────────────────────────────┘

数据类型支持矩阵

PSDB支持的数据类型可分为两大类：

标量类型

类型分类	具体类型	存储大小	典型应用场景
浮点数	FP32/FP16/FP8	4B/2B/1B	常规特征值
整数	Int32/Int16/Int8	4B/2B/1B	ID类特征
布尔	Bool	位压缩	标志位特征
字符串	String	变长(Pascal式)	文本类特征

向量类型

类型分类	容器格式	特点
浮点向量	[][]float32	二维浮点数组
整型向量	[][]int32	二维整型数组
字符串向量	[][]string	二维字符串数组

编码技术深度解析

字符串编码

采用Pascal式长度前缀编码：

先存储2字节长度标识
随后紧跟实际字符串内容
最大支持65536字节长度

优势：相比C风格字符串，可以快速定位字符串边界，避免扫描整个缓冲区。

布尔值编码

创新性使用位打包技术：

传统方式：1布尔值=1字节
PSDB方式：1布尔值=1位
额外维护"最后有效位"索引，加速解码

向量编码策略

维度校验：写入前验证向量长度是否符合模式定义
行优先展平：将多维数组连续存储，消除维度分隔符
隐式重构：利用元数据中的向量长度信息重建维度

压缩方案

采用智能压缩策略：

仅压缩数据区，保持头部可快速访问
自动选择ZSTD压缩或原始存储（基于压缩率）
TTL有效时才执行解压，减少无效计算

CSDB格式设计

CSDB（Cache Storage Data Block）是为缓存层（如DragonflyDB/Redis）优化的数据容器格式。

架构设计哲学

读写分离：序列化与反序列化路径解耦
惰性加载：按需反序列化特定特征组
空间效率：支持负缓存和紧凑存储

内存布局优化

type CacheStorageDataBlock struct {
    FGIdToDDB      map[int]*DeserializedPSDB // 8B对齐
    serializedCSDB []byte                    // 24B(ptr+len+cap)
    TTL            uint32                    // 4B
    layoutVersion  uint8                     // 1B
    cacheType      CacheType                 // 1B
    _              [2]byte                   // 填充对齐
}

关键优化点：

8字节边界对齐指针
合并小字段减少内存碎片
显式填充保证CPU缓存友好

二进制序列化格式

[版本(1B)][FGID(2B)][数据长度(2B)][数据...]*

特征组数据连续存储，支持：

快速跳过不需要的FGID
零长度表示负缓存
随机访问特定特征组

缓存类型对比

维度	内存缓存	分布式缓存
存储形式	Go原生对象	序列化字节流
反序列化	按需部分加载	全量或部分加载
压缩	可选	通常启用
最佳场景	单进程高频访问	多节点共享

性能优化实践

部分反序列化技术

CSDB部分解压示意图

仅解压请求的特征组
跳过无关数据块
避免不必要的解压缩计算

实际应用建议

特征分组策略：将相关特征放在同一FGID，提高局部性
版本管理：合理规划特征模式版本，平衡灵活性和兼容性
缓存策略：根据访问模式选择合适缓存类型
监控指标：关注压缩率、反序列化耗时等关键指标

总结

Meesho/BharatMLStack的在线特征存储数据格式设计体现了多项精妙权衡：

在存储效率与访问速度间取得平衡
在灵活性类型支持与紧凑存储间找到最优解
在通用性与场景定制化间保持适当张力

这种专业级的数据格式设计，为高并发机器学习推理场景提供了坚实的数据基础设施支撑。

BharatMLStack is an open-source, end-to-end machine learning infrastructure stack built at Meesho to support real-time and batch ML workloads at Bharat scale

项目地址：https://gitcode.com/gh_mirrors/bh/BharatMLStack

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

flutter_flutter

Oohos_react_native

React Native鸿蒙化仓库

昇腾LLM分布式训练框架

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统