Meesho/BharatMLStack在线特征存储数据格式深度解析
2025-06-19 02:11:03作者:董斯意
引言
在机器学习系统中,特征存储是连接离线训练和在线推理的关键组件。Meesho/BharatMLStack项目设计了一套高效的数据存储格式体系,专门针对在线特征存储场景进行了优化。本文将深入解析其核心数据格式设计,包括永久存储格式PSDB和缓存存储格式CSDB。
PSDB格式详解
PSDB(Permanent Storage Data Block)是专为ScyllaDB等永久存储系统设计的二进制数据格式,具有紧凑、版本化和模式感知的特点。
核心设计理念
- 存储效率优先:采用紧凑的二进制布局,最小化存储空间占用
- 版本兼容性:内置版本控制机制,支持模式演进
- 类型丰富:支持从标量到高维向量的多种数据类型
- 性能优化:针对高频读取场景进行特殊优化
二进制结构解剖
PSDB采用分层头部设计,各字段精心排布以实现最佳空间利用率:
┌─────────────────┬─────────────────┬───────────────┬───────────────┐
│ 特征模式版本(2B)│ 过期时间戳(5B) │ 布局版本(4b) │ 压缩类型(3b) │
├─────────────────┴─────────────────┴───────────────┴───────────────┤
│ 数据类型(5b) │ 布尔最后有效位(4b) │ 数据区(变长) │
└───────────────────────────────────────────────────────────────────┘
数据类型支持矩阵
PSDB支持的数据类型可分为两大类:
标量类型
| 类型分类 | 具体类型 | 存储大小 | 典型应用场景 |
|---|---|---|---|
| 浮点数 | FP32/FP16/FP8 | 4B/2B/1B | 常规特征值 |
| 整数 | Int32/Int16/Int8 | 4B/2B/1B | ID类特征 |
| 布尔 | Bool | 位压缩 | 标志位特征 |
| 字符串 | String | 变长(Pascal式) | 文本类特征 |
向量类型
| 类型分类 | 容器格式 | 特点 |
|---|---|---|
| 浮点向量 | [][]float32 | 二维浮点数组 |
| 整型向量 | [][]int32 | 二维整型数组 |
| 字符串向量 | [][]string | 二维字符串数组 |
编码技术深度解析
字符串编码
采用Pascal式长度前缀编码:
- 先存储2字节长度标识
- 随后紧跟实际字符串内容
- 最大支持65536字节长度
优势:相比C风格字符串,可以快速定位字符串边界,避免扫描整个缓冲区。
布尔值编码
创新性使用位打包技术:
- 传统方式:1布尔值=1字节
- PSDB方式:1布尔值=1位
- 额外维护"最后有效位"索引,加速解码
向量编码策略
- 维度校验:写入前验证向量长度是否符合模式定义
- 行优先展平:将多维数组连续存储,消除维度分隔符
- 隐式重构:利用元数据中的向量长度信息重建维度
压缩方案
采用智能压缩策略:
- 仅压缩数据区,保持头部可快速访问
- 自动选择ZSTD压缩或原始存储(基于压缩率)
- TTL有效时才执行解压,减少无效计算
CSDB格式设计
CSDB(Cache Storage Data Block)是为缓存层(如DragonflyDB/Redis)优化的数据容器格式。
架构设计哲学
- 读写分离:序列化与反序列化路径解耦
- 惰性加载:按需反序列化特定特征组
- 空间效率:支持负缓存和紧凑存储
内存布局优化
type CacheStorageDataBlock struct {
FGIdToDDB map[int]*DeserializedPSDB // 8B对齐
serializedCSDB []byte // 24B(ptr+len+cap)
TTL uint32 // 4B
layoutVersion uint8 // 1B
cacheType CacheType // 1B
_ [2]byte // 填充对齐
}
关键优化点:
- 8字节边界对齐指针
- 合并小字段减少内存碎片
- 显式填充保证CPU缓存友好
二进制序列化格式
[版本(1B)][FGID(2B)][数据长度(2B)][数据...]*
特征组数据连续存储,支持:
- 快速跳过不需要的FGID
- 零长度表示负缓存
- 随机访问特定特征组
缓存类型对比
| 维度 | 内存缓存 | 分布式缓存 |
|---|---|---|
| 存储形式 | Go原生对象 | 序列化字节流 |
| 反序列化 | 按需部分加载 | 全量或部分加载 |
| 压缩 | 可选 | 通常启用 |
| 最佳场景 | 单进程高频访问 | 多节点共享 |
性能优化实践
部分反序列化技术
- 仅解压请求的特征组
- 跳过无关数据块
- 避免不必要的解压缩计算
实际应用建议
- 特征分组策略:将相关特征放在同一FGID,提高局部性
- 版本管理:合理规划特征模式版本,平衡灵活性和兼容性
- 缓存策略:根据访问模式选择合适缓存类型
- 监控指标:关注压缩率、反序列化耗时等关键指标
总结
Meesho/BharatMLStack的在线特征存储数据格式设计体现了多项精妙权衡:
- 在存储效率与访问速度间取得平衡
- 在灵活性类型支持与紧凑存储间找到最优解
- 在通用性与场景定制化间保持适当张力
这种专业级的数据格式设计,为高并发机器学习推理场景提供了坚实的数据基础设施支撑。
登录后查看全文
热门项目推荐
相关项目推荐
Kimi-K2.5Kimi K2.5 是一款开源的原生多模态智能体模型,它在 Kimi-K2-Base 的基础上,通过对约 15 万亿混合视觉和文本 tokens 进行持续预训练构建而成。该模型将视觉与语言理解、高级智能体能力、即时模式与思考模式,以及对话式与智能体范式无缝融合。Python00
GLM-4.7-FlashGLM-4.7-Flash 是一款 30B-A3B MoE 模型。作为 30B 级别中的佼佼者,GLM-4.7-Flash 为追求性能与效率平衡的轻量化部署提供了全新选择。Jinja00
VLOOKVLOOK™ 是优雅好用的 Typora/Markdown 主题包和增强插件。 VLOOK™ is an elegant and practical THEME PACKAGE × ENHANCEMENT PLUGIN for Typora/Markdown.Less00
PaddleOCR-VL-1.5PaddleOCR-VL-1.5 是 PaddleOCR-VL 的新一代进阶模型,在 OmniDocBench v1.5 上实现了 94.5% 的全新 state-of-the-art 准确率。 为了严格评估模型在真实物理畸变下的鲁棒性——包括扫描伪影、倾斜、扭曲、屏幕拍摄和光照变化——我们提出了 Real5-OmniDocBench 基准测试集。实验结果表明,该增强模型在新构建的基准测试集上达到了 SOTA 性能。此外,我们通过整合印章识别和文本检测识别(text spotting)任务扩展了模型的能力,同时保持 0.9B 的超紧凑 VLM 规模,具备高效率特性。Python00
KuiklyUI基于KMP技术的高性能、全平台开发框架,具备统一代码库、极致易用性和动态灵活性。 Provide a high-performance, full-platform development framework with unified codebase, ultimate ease of use, and dynamic flexibility. 注意:本仓库为Github仓库镜像,PR或Issue请移步至Github发起,感谢支持!Kotlin07
compass-metrics-modelMetrics model project for the OSS CompassPython00
最新内容推荐
MCGS触摸屏编程实例集锦:助力开发者高效掌握触摸屏编程 PowerSI用户指南下载:新一代电源与信号完整性工具【免费下载】 百度poi与高德poi数据获取:助力地理信息研究与分析 CAD刀模自动生成工具-DCBOX:项目的核心功能/场景 数据爬取清洗预处理可视化以及分析挖掘:全方位京东商城百威啤酒评论数据分析 ComfyUI-Manager项目中的Python环境配置问题解析 STMF0系列编程手册中文版STM32F051参考手册:助力微控制器开发者的宝贵资源 主机中间件基线检查工具资源文件:一键确保系统安全 zmodem源码下载仓库:开源协议之光,串行通信利器 Smith V2.0.0资源文件介绍:无线通讯领域的得力工具
项目优选
收起
deepin linux kernel
C
27
11
OpenHarmony documentation | OpenHarmony开发者文档
Dockerfile
522
3.71 K
Ascend Extension for PyTorch
Python
327
384
本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。
C++
875
576
openEuler内核是openEuler操作系统的核心,既是系统性能与稳定性的基石,也是连接处理器、设备与服务的桥梁。
C
334
161
暂无简介
Dart
762
184
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
1.32 K
744
Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台,包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分,采用java语言实现,可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用
Java
12
1
React Native鸿蒙化仓库
JavaScript
302
349
华为昇腾面向大规模分布式训练的多模态大模型套件,支撑多模态生成、多模态理解。
Python
112
134