BharatMLStack在线特征存储架构解析：实时机器学习特征服务设计

2025-06-19 05:13:17作者：伍希望

BharatMLStack is an open-source, end-to-end machine learning infrastructure stack built at Meesho to support real-time and batch ML workloads at Bharat scale

项目地址：https://gitcode.com/gh_mirrors/bh/BharatMLStack

引言

在实时机器学习系统中，特征存储（Feature Store）扮演着至关重要的角色。BharatMLStack项目的在线特征存储（Online Feature Store，简称OnFS）模块，为实时ML推理场景提供了低延迟特征服务能力。本文将深入解析其架构设计和技术实现。

核心架构概览

BharatMLStack在线特征存储架构图

整个系统采用分层设计，主要分为五个逻辑层次：

数据摄入层：支持多种特征生成方式
消息缓冲层：Kafka作为异步消息队列
核心处理层：包含控制平面和数据处理组件
存储层：多种高性能在线数据库
服务层：面向应用的特征查询接口

详细组件解析

1. 多模式特征摄入通道

系统设计了三种特征生成路径，满足不同场景需求：

批处理路径

使用Apache Spark进行大规模特征计算
通过专用spark_feature_push_client直接推送至Kafka
典型场景：历史数据回填、周期性特征更新

离线特征同步路径

从Delta Lake/GCS/S3等离线存储同步
通过预置的Jupyter Notebook模板实现自动化推送
采用与批处理相同的客户端保证一致性

流式处理路径

基于Apache Flink的实时特征管道
使用定制化生产者(custom-producer)接入
适用场景：实时用户行为特征、时序数据处理

2. 消息队列设计

Kafka作为核心消息中间件，实现了：

生产消费解耦：特征生成与存储写入分离
流量削峰：应对突发流量
数据持久化：确保特征不丢失
消费进度管理：支持重放和回溯

3. 核心处理组件

Horizon控制平面

基于etcd的分布式配置管理
特征元数据存储（schema、特征组映射）
作业配置动态分发
提供一致性保证的集群协调

Trufflebox管理界面

特征目录：支持特征发现和元数据查看
作业监控：展示各摄入管道的运行状态
管理审批：特征变更的审核工作流
血缘追踪：特征来源和依赖关系可视化

OnFS消费者服务

多消费者组并行处理Kafka消息
特征数据校验（格式、完整性）
多存储引擎写入（支持事务性操作）
自动扩缩容设计

gRPC API服务

提供毫秒级特征查询接口
基于protobuf的高效序列化
动态权限校验（集成etcd）
请求级流量控制

4. 存储引擎选型

系统支持三种高性能KV存储，适应不同业务场景：

DragonflyDB

完全兼容Redis协议
多线程架构，高吞吐
内存效率优化

Redis

成熟的内存数据库
丰富的数据结构支持
集群模式扩展

ScyllaDB

C++实现的Cassandra兼容数据库
超高性能的磁盘存储
适合超大规模特征集

5. 客户端SDK

Go SDK

轻量级gRPC客户端
连接池管理
自动重试机制

Python SDK

面向数据科学家的友好接口
支持DataFrame交互
本地缓存集成

关键特性与优势

统一特征服务
- 合并批处理和流式特征
- 一致的访问语义
- 消除训练-应用偏差
高性能保障
- 99%查询延迟<10ms
- 水平扩展架构
- 智能缓存策略
全生命周期管理
- 特征版本控制
- 变更审计追踪
- 自动化血统记录
多租户支持
- 资源隔离
- 配额管理
- 租户级监控

典型应用场景

实时推荐系统

用户实时行为特征即时更新
毫秒级特征获取支撑线上推理
特征一致性保证推荐质量

风控模型服务

欺诈特征的快速更新
多数据源特征聚合
审计合规支持

个性化营销

跨渠道用户特征统一管理
实时反馈闭环
AB测试特征支持

运维与监控

指标采集

摄入延迟监控
查询QPS统计
存储引擎健康度

告警体系

特征更新异常
服务可用性
数据一致性校验

容量规划

基于历史增长预测
自动伸缩策略
成本优化建议

总结

BharatMLStack在线特征存储通过精心设计的架构，解决了实时机器学习中的特征管理难题。其核心价值在于：

统一了离线/在线特征管道
提供了企业级的管理能力
保障了生产级SLA要求
降低了MLOps复杂度

对于正在构建实时ML系统的团队，这套架构提供了值得参考的设计范式和实现方案。

BharatMLStack

BharatMLStack is an open-source, end-to-end machine learning infrastructure stack built at Meesho to support real-time and batch ML workloads at Bharat scale

项目地址：https://gitcode.com/gh_mirrors/bh/BharatMLStack

登录后查看全文

BharatMLStack在线特征存储架构解析：实时机器学习特征服务设计

引言

核心架构概览

详细组件解析

1. 多模式特征摄入通道

2. 消息队列设计

3. 核心处理组件

4. 存储引擎选型

5. 客户端SDK

关键特性与优势

典型应用场景

运维与监控

总结

热门内容推荐

项目优选

BharatMLStack在线特征存储架构解析：实时机器学习特征服务设计

引言

核心架构概览

详细组件解析

1. 多模式特征摄入通道

2. 消息队列设计

3. 核心处理组件

4. 存储引擎选型

5. 客户端SDK

关键特性与优势

典型应用场景

运维与监控

总结

相关内容推荐

热门内容推荐

项目优选