ColabFold项目中MMseqs2 CPU版本处理大规模MSA时的expandaln问题解析

2025-07-03 06:12:44作者：袁立春Spencer

ColabFold是革新蛋白质结构预测领域的开源工具，让你通过Google Colab的强大计算资源轻松访问蛋白折叠技术。无论你是科研新手还是专业人士，都能利用这个平台运行AlphaFold2、ESMFold等先进模型，甚至实验性方法如RoseTTAFold2，去解开蛋白质的三维结构之谜。支持单体与复合物预测，自动获取序列相似性搜索结果，且不断进化中。无需昂贵硬件，只需点击几下，即可在云端探索生命科学的基本单元。加入全球研究者的行列，利用ColabFold开启你的蛋白质结构发现之旅吧！

项目地址：https://gitcode.com/gh_mirrors/co/ColabFold

问题背景

在使用ColabFold项目的MMseqs2 CPU版本进行大规模多序列比对(MSA)生成时，许多用户报告在执行expandaln步骤时遇到了错误。这个问题尤其出现在处理超过5,000条序列的大规模数据集时，即使在高性能计算集群(配备96核CPU和614GB内存)上也难以避免。

错误表现

主要错误表现为在执行colabfold_search命令的expandaln阶段时，系统会抛出subprocess.CalledProcessError异常。部分用户还观察到malloc(): invalid size (unsorted)这样的内存分配错误信息。这些错误与数据集规模密切相关，即使将序列数量减少到12,500甚至5,000条，问题仍然存在。

根本原因

经过技术分析，这个问题源于MMseqs2 17版本在引入GPU支持时对CPU搜索路径的意外破坏。具体来说：

版本兼容性问题：MMseqs2 17版本在优化GPU支持时，无意中影响了CPU搜索的稳定性
数据库构建方式：使用新版本构建的数据库可能不完全兼容CPU搜索模式
内存管理异常：在某些情况下会出现内存分配错误，特别是在处理大规模数据集时

解决方案

针对这一问题，社区提供了几种有效的解决方案：

版本回退方案：降级使用MMseqs2 15版本，这是目前最稳定的解决方案。需要重新构建数据库，但能确保CPU搜索的稳定性。
数据库重建方案：如果必须使用MMseqs2 17版本，可以尝试以下步骤：
- 使用GPU=1 ./setup_database.sh命令重新构建数据库
- 移除setup脚本中的--index-subset 2参数
- 这种方式构建的数据库能更好地兼容新版本的搜索功能
等待官方修复：开发团队已经意识到这个问题，并承诺将在下一个版本中发布修复补丁。用户可以关注官方更新公告。