RDKit项目Release_2023_09分支构建失败问题分析

2025-06-28 21:23:41作者：尤辰城Agatha

RDKit是一个开源的化学信息学工具包，广泛应用于药物发现和材料科学领域。近期，使用Release_2023_09分支（包括相关发布标签）进行构建时出现了构建失败的问题，本文将深入分析这一问题的原因和解决方案。

问题现象

在构建过程中，系统会尝试下载Comic_Neue.zip字体文件，但出现了MD5校验失败的错误。具体表现为：

CMake Error at Code/cmake/Modules/RDKitUtils.cmake:254 (MESSAGE):
  The md5 checksum for /rdkit/Code/GraphMol/MolDraw2D/Comic_Neue.zip is
  incorrect; expected: b7fd0df73ad4637504432d72a0accb8f, found:
  9c5b7fcbc00e6ff6c1b53c8e0f17032e

问题根源

经过分析，这个问题主要由以下几个因素导致：

字体文件变更：Google Fonts提供的Comic Neue字体压缩包的MD5校验值发生了变化，而RDKit构建系统中硬编码了旧的校验值。
下载机制变化：有用户报告称，直接使用wget下载时获取的并非真正的zip文件，而是JavaScript代码，这表明Google Fonts的下载接口可能发生了变化。
版本维护策略：RDKit团队对于较旧的发布分支（如2023_09）通常不会进行补丁更新，除非是严重的安全问题。

技术背景

RDKit使用CMake作为构建系统，在构建过程中会自动下载一些依赖资源，包括用于分子结构可视化的字体文件。这些下载操作通常伴随着MD5校验，以确保文件完整性。

MD5校验是一种常用的文件完整性验证方法，通过比较下载文件的MD5哈希值与预期值是否一致来判断文件是否被篡改或损坏。然而，当上游资源发生变化时，这种硬编码的校验机制就会导致构建失败。

解决方案

对于需要使用Release_2023_09分支的用户，可以考虑以下几种解决方案：

手动修改构建脚本：可以修改Code/GraphMol/MolDraw2D/CMakeLists.txt文件，更新Comic_Neue.zip的MD5校验值为当前有效的值（9c5b7fcbc00e6ff6c1b53c8e0f17032e）。
采用更新的构建逻辑：参考RDKit主分支中的实现方式，使用更灵活的下载和校验策略。新版本的构建系统已经改进了这一机制，能够更好地应对上游资源的变化。
本地提供字体文件：可以手动下载正确的字体文件并放置在指定位置，然后修改构建脚本跳过下载步骤。
升级到更新的RDKit版本：如果项目允许，考虑升级到更新的RDKit版本，这些版本已经解决了类似问题。