prometheus-net库中CollectAndSerializeAsync方法的并发修改问题解析

2025-07-05 19:05:02作者：董灵辛Dennis

问题背景

在prometheus-net这个.NET生态中广泛使用的Prometheus客户端库的8.2.0版本中，用户报告了一个偶发的并发修改异常问题。该问题表现为在收集和序列化指标数据时，系统会抛出"Collection was modified"的异常，导致监控数据无法正常上报。

问题现象

异常堆栈显示，问题发生在CollectorRegistry.UpdateRegistryMetrics()方法中，具体是在遍历字典的值集合时检测到了并发修改。这种异常通常发生在以下场景：

一个线程正在遍历集合
同时另一个线程修改了该集合

在prometheus-net的上下文中，这意味着：

指标收集线程正在序列化当前指标数据
同时另一个线程正在注册新的指标或更新现有指标

问题根源

通过分析代码变更，可以确定这个问题是在8.2.0版本中引入的。该版本对性能进行了优化，其中包括对指标收集路径的修改。在优化过程中，原有的线程安全机制可能被无意中破坏，导致在并发场景下出现集合修改冲突。

影响范围

这个问题具有以下特点：

发生频率低：每个实例可能只出现1-3次
影响范围广：影响所有环境（开发、预发布、生产）
随机性强：与服务运行时间无直接关系

解决方案

prometheus-net维护团队迅速响应，在8.2.1版本中修复了这个问题。修复的核心思路是：

确保在收集指标时的线程安全
保持原有的性能优化成果
避免引入新的锁竞争

最佳实践

对于使用prometheus-net库的开发者，建议：

及时升级到8.2.1或更高版本
避免在运行时动态创建大量新指标
对于高频更新的指标，考虑使用原子操作
监控日志中的相关异常，确保修复效果

技术启示

这个问题给我们几个重要的技术启示：

性能优化可能带来意料之外的并发问题
集合遍历时的线程安全需要特别关注
监控系统自身的稳定性同样重要
开源社区的快速响应能有效降低生产风险

通过这个案例，我们再次认识到在分布式系统中，即使是监控组件本身也需要具备高度的稳定性和可靠性。prometheus-net团队的专业响应为.NET生态的监控能力提供了有力保障。

prometheus-net

.NET library to instrument your code with Prometheus metrics

项目地址：https://gitcode.com/gh_mirrors/pr/prometheus-net

登录后查看全文

项目优选

收起

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力