OpenTelemetry Python SDK 内存泄漏问题分析与解决方案

2025-07-06 11:56:08作者：农烁颖Land

在OpenTelemetry Python SDK的使用过程中，开发者发现了一个重要的内存管理问题：当使用OTLP导出器和指标读取器时，即使显式调用了shutdown()方法并进行垃圾回收，相关对象仍然无法被正确释放。本文将深入分析该问题的根源，并介绍官方提供的解决方案。

问题现象

在Python 3.12.6环境下使用OpenTelemetry SDK 1.27.0版本时，开发者发现以下对象无法被正确回收：

通过weakref弱引用跟踪和gc垃圾回收模块的检查，确认这些对象在调用shutdown()后仍然被保留在内存中。日志显示存在4个直接引用保持这些对象存活。

经过核心开发团队的深入调查，发现内存泄漏主要由两个关键因素导致：

Python的post-fork钩子引用
在Unix-like系统中，SDK注册了一个_fork_reinit方法作为进程fork后的回调。Python的os模块没有提供取消注册这类钩子的API，导致回调方法始终保持对原对象的强引用。
类变量集合泄漏
在MetricReader的实现中，存在一个类级别的集合_working_metric_readers，用于跟踪所有工作中的指标读取器。这个集合会保持对所有已注册读取器的强引用，即使这些读取器已经完成了工作。

开发团队提出了以下修复方案：

使用weakref处理fork钩子
将原来的强引用回调改为通过weakref.WeakMethod实现，这样当主对象被回收时，回调引用会自动解除。
优化类变量集合管理
对于_working_metric_readers集合，改为使用弱引用集合(WeakSet)来跟踪工作中的读取器。这样当读取器不再被其他代码引用时，可以自动从集合中移除。
显式清理机制
在shutdown()方法中添加额外的清理逻辑，确保所有临时引用都被正确释放。