RDKit多线程标准化函数崩溃问题分析与解决方案

2025-06-28 00:35:07作者：仰钰奇

问题背景

在使用RDKit化学信息学工具包时，开发者发现某些多线程版本的分子标准化函数（如CleanupInPlace和TautomerParentInPlace）在处理特定分子结构时会导致程序崩溃。这一问题在2024.03.3版本中尤为明显，特别是在连续调用多个标准化函数时。

当单独使用CleanupInPlace函数处理包含特定结构（如带有电荷分离的氮氧化物）的分子列表时，虽然函数会失败，但能够正确记录错误日志。然而，当连续调用CleanupInPlace和TautomerParentInPlace两个函数时，程序会直接崩溃，且没有任何错误信息输出。

经过深入分析，发现该问题主要由以下几个因素导致：

Kekulization异常处理不足：在处理某些特殊分子结构（如电荷分离的氮氧化物）时，Kekulization（凯库勒化）过程会抛出异常，但在多线程环境下这些异常没有被正确捕获。
多线程同步问题：当多个线程同时抛出异常时，异常处理机制出现竞争条件，导致程序崩溃而非优雅地处理错误。
错误信息丢失：在多线程环境下，错误日志输出机制未能正确同步，导致部分错误信息丢失。

RDKit开发团队已在2024.03.4版本中修复了底层异常处理问题。对于仍在使用旧版本的用户，建议采取以下措施：

RDKit社区已计划进一步改进这些标准化函数，包括：

通过理解这些问题和解决方案，开发者可以更安全有效地使用RDKit的分子标准化功能，特别是在处理复杂分子结构和高通量计算场景时。

登录后查看全文