DeepMD-kit中DPA2模型测试时的张量维度不匹配问题分析

2025-07-10 10:30:14作者：咎岭娴Homer

问题背景

在使用DeepMD-kit的PyTorch后端进行DPA2描述符模型测试时，研究人员发现了一个与验证数据集大小相关的张量维度不匹配问题。具体表现为：当使用合并后的验证数据集（包含7290帧数据，来自C2O29H4_1124和C2O3H4_6166两个来源）进行测试时，会出现"RuntimeError: The size of tensor a (17) must match the size of tensor b (25) at non-singleton dimension 1"的错误。

问题复现条件

该问题在以下环境中可复现：

DeepMD-kit版本：v3.0.0a1.dev81+g23f67a13
PyTorch版本：2.0.0
CUDA版本：cu117
使用DPA2描述符训练的模型（500k步训练）
合并的验证数据集（包含不同分子结构的多个数据集）

问题现象分析

当测试命令为：

dp --pt test -m model.ckpt.pt -s /path/to/merged_validation_data/

会出现张量维度不匹配错误。但通过添加-n参数限制测试帧数（如-n 10）后，测试可以正常完成。

进一步测试发现：

使用单个验证数据集时，问题同样存在
通过限制测试帧数可以规避问题
该问题与批次大小设置（DP_INFER_BATCH_SIZE）无关

根本原因定位

经过深入排查，发现问题与PyTorch的JIT脚本编译功能相关。具体表现为：

当启用torch.jit.script对模型进行编译时，会出现张量维度不匹配错误
注释掉torch.jit.script相关代码后，测试可以正常完成
这表明问题可能源于PyTorch JIT编译器在处理特定模型结构时的行为异常

技术影响

该问题对使用DeepMD-kit的研究人员可能造成以下影响：

无法对大规模验证数据集进行完整测试
需要手动限制测试帧数来规避问题
影响模型评估的完整性和准确性

解决方案

目前推荐的临时解决方案包括：

使用-n参数限制测试帧数
在代码中临时禁用torch.jit.script功能（需自行编译修改版）

长期来看，需要等待PyTorch官方修复JIT编译器相关的问题，特别是在处理类似DPA2这样的复杂模型结构时的稳定性问题。

技术建议

对于遇到类似问题的研究人员，建议：

首先确认是否使用了合并的验证数据集
尝试使用较小的测试批次或限制测试帧数
关注PyTorch版本更新，特别是JIT编译器相关的改进
对于关键研究，考虑使用非JIT编译的模型版本进行测试

这个问题提醒我们，在使用深度学习框架的高级功能时，需要特别注意其对模型行为的潜在影响，特别是在处理复杂模型结构和非标准数据组织方式时。

deepmd-kit

A deep learning package for many-body potential energy representation and molecular dynamics

项目地址：https://gitcode.com/gh_mirrors/de/deepmd-kit

登录后查看全文

项目优选

收起

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

468

461

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

Jupyter Notebook

363

132

DeepMD-kit中DPA2模型测试时的张量维度不匹配问题分析

问题背景

问题复现条件

问题现象分析

根本原因定位

技术影响

解决方案

技术建议

热门内容推荐

最新内容推荐

项目优选

DeepMD-kit中DPA2模型测试时的张量维度不匹配问题分析

问题背景

问题复现条件

问题现象分析

根本原因定位

技术影响

解决方案

技术建议

相关内容推荐

热门内容推荐

最新内容推荐

项目优选