内存泄漏警报：解决长时运行下的 ONNX Runtime 显存攀升

2026-04-26 09:37:02作者：胡易黎Nicole

在生产环境下，如果你的推理服务在启动初期表现完美，但运行几天甚至几小时后，显存（VRAM）或系统内存（RAM）开始像爬楼梯一样缓慢增长，直到触发 OOM（Out of Memory）导致服务崩溃，那么你一定撞上了最隐蔽的“内存幽灵”。

# 监控系统发出的死亡通知：
[Killed] Process ai_service consumed 98% of system memory.
[E:onnxruntime:Default, cuda_allocator.cc:110] 
CUDA failure 2: out of memory at line 145.
# 即便你手动调用了 Python 的 gc.collect()，显存依然不下降。

💡 报错现象总结：在进行 Memory leak detection 时，核心矛盾在于“句柄管理失效”。通常是因为在循环推理中重复创建了 InferenceSession 却未正确释放，或者在开启 IO Binding 后，绑定的张量引用计数未归零，导致 ORT 的内部内存池（Arena）只申请不回收，最终挤爆显存。

揭秘内存泄漏的底层路径：谁占着位置不走？

ONNX Runtime 为了极致性能，内部使用了复杂的内存池（Arena）技术。显存没释放，往往不是因为 C++ 层漏了 delete，而是因为上层逻辑还在“拿着钥匙”，导致内存池认为这些空间仍在使用中。

架构级瓶颈：内存池肥大化与引用逃逸

泄漏来源	触发机制	表现形式	架构师视角结论
Session 垃圾堆积	在请求回调中重复实例化 Session	显存呈阶梯状线性上升	Session 必须全局复用，严禁在函数内局部初始化
IO Binding 引用锁死	绑定的 `OrtValue` 被全局变量引用	显存占用随推理次数持续阴涨	必须在每次推理解束后显式清空或覆盖 Binding 对象
内存池（Arena）碎片	频繁输入不同 Shape 的张量	显存占用在达到某个峰值后维持高位	固定输入维度（Static Shape）是显存稳定的基石

在源码 onnxruntime/core/framework/allocator.cc 中，BFCArena 算法会尽量保留已申请的内存以备后用。如果你的模型输入维度（Sequence Length 或 Image Size）变化剧烈，Arena 会不断申请新的大块缓冲区，导致表面上的“内存泄漏”。

解决内存增长的“原生态笨办法”

在掌握专业的内存管理手段前，开发者往往会通过一些“暴力手段”来缓解症状：

定时重启大法：在 crontab 里设置每 4 小时重启一次推理服务。虽然能解决问题，但会导致服务在重启瞬间出现业务中断。
暴力垃圾回收：在每一行推理代码后面都加一个 gc.collect()。这不仅大幅降低推理效率，且对 ORT 管理的显存部分几乎无效。
限制 Arena 大小：通过环境变量强行限制 GPU 内存配额。这会导致当业务真正需要更多内存时，程序直接因申请不到空间而闪退。

# 这种低效的写法只会增加系统负担
for img in camera_stream:
    # 错误示范：不断产生新的引用，Python 的 GC 机制无法实时同步 C++ 层的显存释放
    results = session.run(None, {"in": img})
    import gc
    gc.collect()

这种办法的痛苦之处在于：