Grafana Mimir 2.16版本迁移至Spread-Minimizing Tokens时的CPU负载问题分析

2025-06-13 21:05:57作者：宗隆裙

Grafana Mimir provides horizontally scalable, highly available, multi-tenant, long-term storage for Prometheus.

项目地址：https://gitcode.com/gh_mirrors/mimir/mimir

在Grafana Mimir 2.16版本中，用户在执行从传统哈希环迁移到Spread-Minimizing Tokens的配置变更时，可能会遇到一个关键的性能问题。当按照官方文档指导，在Distributor和Ruler组件中启用-ingester.ring.excluded-zones=zone-a参数后，这些组件的CPU使用率会出现异常飙升，导致数据处理能力显著下降。

问题现象

在迁移过程中，运维人员观察到：

组件重启后CPU使用率立即显著上升
Distributor组件无法及时处理传入的数据流
性能分析显示Ring相关操作消耗了大量CPU资源

技术背景

Spread-Minimizing Tokens是Mimir引入的一种优化机制，旨在更均匀地分布数据副本，提高系统稳定性。传统哈希环在节点变化时可能导致数据分布不均，而新机制通过智能调整token分布来避免这种情况。

根本原因

该问题源于2.16版本中Ring组件在处理排除区域(Excluded Zones)时的实现缺陷。当指定excluded-zones参数后：

系统需要频繁重新计算有效的Ingester节点集合
每次请求都需要执行额外的过滤逻辑
缺乏有效的缓存机制导致重复计算

解决方案

该问题已在后续的每周版本中通过代码优化得到修复，主要改进包括：

优化了Ring节点的过滤算法
引入了更高效的缓存机制
减少了不必要的重复计算

最佳实践建议

对于计划进行此类迁移的用户，建议：

首先在测试环境验证迁移过程
使用2.16之后的版本（包含修复的每周版本）
监控系统关键指标，特别是CPU使用率和请求延迟
考虑在低流量时段执行迁移操作

总结

这个案例展示了分布式系统配置变更时可能遇到的隐性性能问题。它提醒我们即使是按照官方文档操作，也需要充分理解底层机制，并在生产环境变更前进行充分测试。同时，保持系统版本更新也是避免已知问题的重要措施。

Grafana Mimir provides horizontally scalable, highly available, multi-tenant, long-term storage for Prometheus.

项目地址：https://gitcode.com/gh_mirrors/mimir/mimir

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

flutter_flutter

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

ohos_react_native

React Native鸿蒙化仓库

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

cangjie_compiler

仓颉编译器源码及 cjdb 调试工具。