Micrometer OTLP 注册中心中的指数直方图并发问题解析

2025-06-12 09:09:04作者：董斯意

An application observability facade for the most popular observability tools. Think SLF4J, but for observability.

项目地址：https://gitcode.com/gh_mirrors/mi/micrometer

问题背景

Micrometer 作为一款流行的 Java 应用度量指标库，其 OTLP 注册中心实现中提供了一个基于 2 的指数桶直方图(Base2ExponentialHistogram)功能。这个功能在最新版本 1.14.0 中被发现存在一个严重的并发问题，当在高并发环境下记录大数值时，会导致 ArrayIndexOutOfBoundsException 异常。

问题现象

开发团队在使用 Timer 记录指标时遇到了数组越界异常，具体表现为：

系统尝试将值放入索引为 254614 的桶中，而桶的总数仅为 40 个
错误发生在 CircularCountHolder.increment 方法中
从日志中可以看到，系统尝试记录的值非常大（如 3856360 纳秒，约 3.8 毫秒）
问题在并发环境下更容易复现

技术分析

根本原因

问题的核心在于 Base2ExponentialHistogram 实现中的并发控制不足。指数直方图需要根据记录的值动态调整其范围（称为"缩放"），这个过程在并发环境下没有完全同步，导致：

一个线程可能正在计算桶索引
同时另一个线程正在进行缩放操作
这种竞态条件导致计算出的索引超出当前桶数组的范围

影响范围

使用 OTLP 注册中心并配置了 BASE2_EXPONENTIAL_BUCKET_HISTOGRAM 直方图类型的应用
在高并发环境下记录较大值的场景
特别是使用 Timer 记录较长耗时操作的情况

解决方案

临时解决方案

对于受影响的用户，可以采取以下临时措施：

暂时切换回传统直方图实现
在记录操作周围添加 try-catch 块捕获异常
避免使用 System.currentTimeMillis() 手动计算耗时，改用 Timer.Sample 或 record(Runnable/Callable)

永久修复

Micrometer 团队已经提交了修复方案，主要改进包括：

在缩放操作期间添加适当的同步控制
优化并发访问策略
增加并发测试用例确保修复效果

最佳实践建议

避免手动计算耗时：使用 Timer 提供的原生方法（如 record(Runnable)）而非手动计算时间差
合理配置桶数量：根据实际指标范围调整 maxBucketCount 参数
避免使用全局注册表：推荐使用依赖注入的方式管理 MeterRegistry 实例
升级到修复版本：建议升级到包含修复的 1.14.3 或更高版本

技术深度解析

指数直方图是一种高效的指标记录方式，特别适合记录范围变化大的指标。它通过以下方式工作：

使用指数增长的桶边界（基于 2 的幂次）
动态调整比例因子（scale）以适应不同范围的输入值
自动合并或拆分桶以保持总数不超过配置的限制

在并发环境下，这种动态调整需要特别小心，因为：

读取操作需要看到一致的桶边界和计数状态
写入操作不能干扰正在进行的读取
缩放操作需要原子性地更新所有相关状态

修复后的实现通过精细化的同步策略平衡了性能与正确性，确保在高并发场景下也能稳定工作。

总结

这次事件展示了在实现高效并发数据结构时的常见挑战。Micrometer 团队的快速响应和彻底修复体现了开源社区的优势。对于使用者来说，及时关注更新、理解底层实现原理，以及遵循最佳实践，都是构建稳定监控系统的重要环节。

An application observability facade for the most popular observability tools. Think SLF4J, but for observability.

项目地址：https://gitcode.com/gh_mirrors/mi/micrometer

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

flutter_flutter

Oohos_react_native

React Native鸿蒙化仓库

昇腾LLM分布式训练框架

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统