RDKit中CachedSmilesMolHolder内存泄漏问题分析

2025-06-28 18:04:00作者：魏献源Searcher

The official sources for the RDKit library

项目地址：https://gitcode.com/gh_mirrors/rd/rdkit

问题背景

在RDKit化学信息学工具包中，CachedSmilesMolHolder是一个用于存储和管理SMILES分子字符串的类，它通常与SubstructLibrary一起使用来进行子结构搜索。然而，近期发现当在循环中重复创建和使用CachedSmilesMolHolder实例时，会出现内存泄漏问题，最终可能导致程序因内存不足而崩溃。

问题现象

用户报告了一个典型的内存泄漏场景：在一个循环中反复创建CachedSmilesMolHolder实例，添加大量SMILES字符串，然后创建SubstructLibrary。随着循环的进行，程序占用的内存持续增长而不会被释放，最终导致内存耗尽。

技术分析

通过深入分析发现问题主要存在于以下几个方面：

对象生命周期管理：CachedSmilesMolHolder实例在被SubstructLibrary引用后，其生命周期应该与SubstructLibrary绑定。然而当前实现中，当SubstructLibrary被销毁时，未能正确释放CachedSmilesMolHolder占用的内存。
Python包装层问题：在Python绑定层，当C++对象被Python包装时，有时会出现引用计数管理不当的情况，导致对象无法被垃圾回收器正确回收。
缓存机制副作用：CachedSmilesMolHolder内部维护了一个分子对象的缓存，这个缓存在某些情况下可能不会被及时清理。

解决方案

针对这个问题，RDKit开发团队已经提出了修复方案：

改进引用计数管理：确保当SubstructLibrary被销毁时，所有相关的CachedSmilesMolHolder资源都能被正确释放。
添加显式清理方法：为CachedSmilesMolHolder类添加一个清理方法，允许用户在不再需要时手动释放资源。
优化缓存策略：调整内部缓存机制，确保在适当的时候释放不再需要的分子对象。

临时解决方案

对于使用较旧版本RDKit的用户，可以采取以下临时措施来缓解内存泄漏问题：

减少重复创建：尽量避免在循环中反复创建CachedSmilesMolHolder实例，改为复用同一个实例。
分批处理：将大数据集分成较小的批次进行处理，每批完成后重启程序或释放资源。
使用替代方案：考虑使用其他分子持有器类，如SmilesMolHolder，如果功能满足需求的话。

最佳实践

为了避免类似的内存问题，建议在使用RDKit的分子持有器类时遵循以下原则：

最小化实例创建：尽可能复用现有的分子持有器实例，而不是频繁创建新的实例。
及时释放资源：当不再需要分子持有器时，确保所有引用都被清除，以便垃圾回收器可以回收内存。
监控内存使用：在处理大型数据集时，定期检查程序的内存使用情况，及时发现潜在的内存泄漏。

总结

内存管理是化学信息学软件中常见的挑战之一，特别是在处理大量分子数据时。RDKit团队已经意识到CachedSmilesMolHolder的内存泄漏问题，并在最新版本中进行了修复。对于用户来说，理解这些底层机制有助于更好地使用RDKit工具包，并开发出更健壮的化学信息学应用。

The official sources for the RDKit library

项目地址：https://gitcode.com/gh_mirrors/rd/rdkit

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

flutter_flutter

ohos_react_native

React Native鸿蒙化仓库

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解