首页
/ AIStore v3.26 版本深度解析:存储集群的全面进化

AIStore v3.26 版本深度解析:存储集群的全面进化

2025-07-01 06:02:01作者:邬祺芯Juliet

AIStore 是一个高性能、可扩展的对象存储系统,专为大规模 AI 和数据分析工作负载而设计。作为云原生存储解决方案,它提供了与主流云存储服务的无缝集成,同时通过智能缓存、数据本地化和并行处理等特性,显著提升了数据访问性能。最新发布的 v3.26 版本带来了多项重要改进,进一步强化了系统的可靠性、可观测性和运维便利性。

核心架构增强

v3.26 版本解决了 AIStore 架构中最后几个关键限制。新增的 scrub 功能支持双向差异检测,能够识别远程存储中的异常删除和版本变更。这一功能对于确保数据一致性至关重要,特别是在分布式环境中。

集群现在支持运行时动态更新用户凭证,无需停机即可完成认证信息的刷新。这一改进显著提升了系统的运维灵活性,特别是在需要频繁轮换凭证的生产环境中。

极端场景恢复能力

网络分区是分布式系统面临的经典挑战。v3.26 引入了"强制设置主节点"功能,使管理员能够合并因网络分区而形成的分裂集群。当网络故障导致集群分裂为多个独立分区时,各分区可能各自选举出主节点。新功能允许将一个集群强制加入另一个集群,恢复原始节点规模。这一机制为处理罕见的网络分区事件提供了有效手段。

可观测性体系升级

监控系统进行了全面重构。Prometheus 指标现在实现实时更新,消除了之前周期性收集带来的延迟。指标计算方式也进行了优化,不再直接发布计算好的延迟和吞吐量指标,而是提供原始数据(如纳秒数和字节数),由监控客户端根据需要计算派生指标。

新增的细粒度指标包括:

  • 按后端类型(如 S3、GCS 等)区分的独立指标
  • 包含桶名的操作指标
  • 内部任务(如数据迁移)生成的写入操作指标
  • 包含故障磁盘路径的文件系统健康检查错误指标

系统还新增了对 OpenTelemetry 分布式追踪的支持,为复杂工作流提供了端到端的可视化能力。

存储引擎优化

校验和(scrub)功能是 v3.26 的重点改进之一。该功能可以检测多种数据异常情况:

  • 位置错误的对象(集群范围或特定多磁盘目标内)
  • 远程存储中缺失的对象,反之亦然
  • 集群中存在但远程已删除的对象
  • 副本不足的对象
  • 大小超出指定范围的对象

当前版本主要关注问题检测,修复功能计划在下一版本中实现。检测结果包括汇总统计和详细问题报告,为管理员提供全面的数据健康视图。

计算与存储协同

ETL(提取-转换-加载)框架新增了两个音频处理专用转换器:

  1. 基于 FFmpeg 的高性能音频处理器,比传统方法快 5 倍,支持格式转换、声道调整等批量操作
  2. 实验性的音频分割-处理-重组工具,支持大规模音频处理流水线

Python 运行时支持扩展到 3.9-3.13 版本,同时优化了可信客户端直接访问存储节点的能力,减少了不必要的网络跳转。

新存储后端支持

v3.26 新增了对 Oracle Cloud Infrastructure (OCI) 对象存储的原生支持,使其成为继 AWS S3、Google Cloud Storage 和 Azure Blob Storage 之后的第四个官方支持云存储后端。这一扩展使 AIStore 能够更好地服务于使用 OCI 基础设施的用户。

运维工具改进

命令行界面进行了全面优化,包括:

  • 重新组织的帮助系统和更清晰的选项描述
  • 多对象 PUT 操作的客户端校验和支持
  • 通用前缀支持扩展到所有多对象操作命令
  • 增强的批处理作业追踪能力,可查看历史作业的完整启动命令

Kubernetes 操作符升级到 2.0.1 版本,改进了生命周期管理、重平衡状态处理和代理通信等核心功能。

性能优化

全栈性能优化措施包括:

  • HTTP 请求内存池化,减少内存分配开销
  • 全局重平衡算法优化
  • 代码级微优化提升整体效率
  • 错误处理逻辑改进,新增专门的 I/O 错误类别
  • 对象元数据缓存增强

这些改进共同提升了系统在各种工作负载下的稳定性和性能表现。

v3.26 版本标志着 AIStore 在成熟度上的重要进步,特别是在极端情况处理、运维便利性和系统可观测性方面。这些改进使 AIStore 更加适合作为关键业务存储基础设施,为 AI 和大数据工作负载提供可靠支持。

登录后查看全文
热门项目推荐
相关项目推荐

项目优选

收起
kernelkernel
deepin linux kernel
C
22
6
docsdocs
OpenHarmony documentation | OpenHarmony开发者文档
Dockerfile
182
2.11 K
ohos_react_nativeohos_react_native
React Native鸿蒙化仓库
C++
205
282
nop-entropynop-entropy
Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台,包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分,采用java语言实现,可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用
Java
9
1
RuoYi-Vue3RuoYi-Vue3
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
960
570
ops-mathops-math
本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。
C++
543
70
pytorchpytorch
Ascend Extension for PyTorch
Python
58
87
金融AI编程实战金融AI编程实战
为非计算机科班出身 (例如财经类高校金融学院) 同学量身定制,新手友好,让学生以亲身实践开源开发的方式,学会使用计算机自动化自己的科研/创新工作。案例以量化投资为主线,涉及 Bash、Python、SQL、BI、AI 等全技术栈,培养面向未来的数智化人才 (如数据工程师、数据分析师、数据科学家、数据决策者、量化投资人)。
Python
78
72
openGauss-serveropenGauss-server
openGauss kernel ~ openGauss is an open source relational database management system
C++
146
192
openHiTLSopenHiTLS
旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!
C
1.01 K
399