RDKit中分子形状对齐时氘原子导致Tanimoto分数异常的修复分析

2025-06-28 07:59:30作者：虞亚竹Luna

问题背景

在化学信息学和药物发现领域，分子形状相似性计算是一项基础而重要的工作。RDKit作为一款广泛使用的化学信息学工具包，其rdShapeAlign模块提供了分子形状对齐和相似度计算功能。然而，在处理含氘(²H)分子时，该模块出现了一个关键问题：计算得到的Tanimoto相似度分数可能超过理论最大值1.0。

问题现象

当使用rdShapeAlign.AlignMol()函数计算含氘分子与参考分子的形状相似度时，返回的Tanimoto分数异常地超过了1.0。例如，在比较氘代苯([²H]c1ccccc1)和普通苯(c1ccccc1)时，得到的Tanimoto分数为1.214，而理论上相似度分数应该在0到1之间。

技术分析

根本原因

通过代码分析发现，问题出在PubChemShape.cpp文件的PrepareConformer函数中。该函数在准备分子构象数据时，错误地使用了原子总数而非重原子数来索引数组。具体表现为：

代码遍历所有原子(包括氢和氘)时，使用原子总数作为循环变量
但在填充范德华半径等原子属性数组时，只处理原子序数大于1的重原子
由于数组大小是按重原子数分配的，使用原子总数索引会导致内存越界写入

影响范围

该问题特别影响含氘分子的处理，因为：

氘(²H)的原子序数为1，被视为氢同位素
但在分子表示中被当作独立原子处理
导致原子总数与重原子数不一致的情况加剧

解决方案

修复方法

正确的实现应该使用两个独立的计数器：

一个计数器(i)遍历所有原子
另一个计数器(heavyAtomIdx)专门用于重原子数组的索引

核心修复代码如下：

unsigned int heavyAtomIdx = 0; // 专门用于重原子的计数器
for (unsigned int i = 0; i < mol.getNumAtoms(); ++i) {
    const Atom *atom = mol.getAtomWithIdx(i);
    int Z = atom->getAtomicNum();
    if (Z > 1) { // 只处理重原子
        rad_vector[heavyAtomIdx] = vdw_radii.at(Z); // 使用正确的索引
        heavyAtomIdx++;
    }
}