BharatMLStack在线特征存储核心功能解析

2025-06-19 10:14:30作者：明树来

BharatMLStack is an open-source, end-to-end machine learning infrastructure stack built at Meesho to support real-time and batch ML workloads at Bharat scale

项目地址：https://gitcode.com/gh_mirrors/bh/BharatMLStack

引言

在机器学习工程实践中，特征存储系统扮演着至关重要的角色。BharatMLStack项目中的在线特征存储组件(Online Feature Store)是一个专为生产环境设计的高性能系统，它能够以极低延迟(亚10毫秒P99)处理每秒百万级请求(RPS)，有效弥合了离线特征工程与实时模型推理之间的鸿沟。

核心架构设计理念

BharatMLStack在线特征存储采用了多层架构设计，主要包含以下关键组件：

高性能API层：提供gRPC和RESTful两种接口形式
智能缓存层：实现内存高效的对象池和连接池
可扩展存储层：支持多种数据库后端
监控告警层：内置完善的指标收集和日志系统

这种分层设计使得系统能够在保证高性能的同时，具备良好的可扩展性和可维护性。

核心功能详解

实时特征服务能力

系统最突出的特点是其超低延迟和高吞吐量特性：

亚10毫秒P99延迟：即使在99%的请求情况下，响应时间也能保持在10毫秒以内
百万级RPS处理能力：单次请求可处理100个ID的特征查询，系统整体吞吐量可达每秒百万次请求
批量检索：支持单次请求获取多个实体的多个特征
时间点一致性：确保模型预测时使用的特征数据具有一致性

多格式数据支持

系统针对机器学习场景优化了各种数据类型的存储和序列化：

数据类型	支持格式	典型应用场景
整型	int8/16/32/64	用户ID、计数、类别编码
浮点型	float16/32/64	连续特征、嵌入向量、分数
字符串	变长	类别、文本特征、元数据
布尔型	位压缩	特征标志、二元指标
向量	所有上述类型	嵌入、特征数组、时间序列

多数据库后端支持

系统设计了灵活的存储后端适配层，可根据不同场景需求选择：

ScyllaDB：基于C++的高性能NoSQL数据库，推荐生产环境使用
Dragonfly：新一代Redis替代方案，内存效率更高
Redis：传统内存数据库，适合开发和中小规模部署

关键技术优化

性能优化手段

自定义PSDB格式：专为机器学习特征优化的序列化协议
对象池技术：高效复用内存资源，减少GC压力
连接池管理：优化数据库连接使用效率
智能压缩：支持LZ4/Snappy/ZSTD等多种压缩算法，自动选择最优方案

数据管理特性

TTL支持：可配置的特征自动过期机制
版本控制：多版本特征模式并存，保持向后兼容
批量操作：高效的批量读写接口
特征分组：逻辑上组织相关特征，便于管理

开发者体验

系统提供了完善的开发者工具链：

多语言SDK：
- Go语言原生客户端，内置连接池和错误处理
- Python绑定，方便数据科学家使用
API接口：
- 高性能gRPC接口
- 便于测试的RESTful接口
调试工具：
- 特征值解码功能
- 版本感知查询

生产环境就绪特性

健康检查：内置健康监测端点
监控集成：支持DataDog/Prometheus等监控系统
结构化日志：JSON格式日志，可配置级别
优雅关闭：完善的资源清理机制

典型应用场景

实时机器学习推理

// 获取推荐模型所需的用户特征
query := &onfs.Query{
    EntityLabel: "user",
    FeatureGroups: []onfs.FeatureGroup{
        {
            Label:         "demographics",
            FeatureLabels: []string{"age", "location", "income"},
        },
        {
            Label:         "behavior", 
            FeatureLabels: []string{"click_rate", "purchase_history"},
        },
    },
    KeysSchema: []string{"user_id"},
    Keys: []onfs.Keys{
        {Cols: []string{"user_123"}},
    },
}

批量特征服务

// 为模型训练批量获取特征
query := &onfs.Query{
    EntityLabel: "transaction",
    FeatureGroups: []onfs.FeatureGroup{
        {
            Label:         "transaction_history",
            FeatureLabels: []string{"amount", "frequency", "merchant_type"},
        },
        {
            Label:         "risk_scores",
            FeatureLabels: []string{"fraud_score", "credit_score"},
        },
    },
    KeysSchema: []string{"transaction_id"},
    Keys: []onfs.Keys{
        {Cols: []string{"txn_001"}},
        {Cols: []string{"txn_002"}},
        // 数百个交易ID
    },
}

A/B测试支持

// 版本感知的特征获取
query := &onfs.Query{
    EntityLabel: "experiment",
    FeatureGroups: []onfs.FeatureGroup{
        {
            Label:         "model_features_v2", // 指定版本
            FeatureLabels: []string{"feature_a", "feature_b", "feature_c"},
        },
    },
    KeysSchema: []string{"user_id"},
    Keys: []onfs.Keys{
        {Cols: []string{"user_123"}},
    },
}