ComfyUI-WanVideoWrapper项目中视频帧与姿态数据尺寸匹配问题解析

2025-07-03 13:45:47作者：虞亚竹Luna

项目地址：https://gitcode.com/GitHub_Trending/co/ComfyUI-WanVideoWrapper

问题现象

在使用ComfyUI-WanVideoWrapper进行视频处理时，用户遇到了一个典型的张量尺寸不匹配错误。具体表现为：当尝试以480x840分辨率采样49帧视频时，系统抛出"RuntimeError: The size of tensor a (20475) must match the size of tensor b (20280) at non-singleton dimension 1"异常。

技术背景

在视频处理流程中，特别是涉及深度学习模型处理时，输入数据的各个维度必须严格匹配。ComfyUI-WanVideoWrapper作为一个视频处理框架，需要同时处理视频帧数据和对应的姿态估计数据(DWPose)。这两个数据流在模型内部会进行融合计算，因此它们的尺寸必须保持一致。

问题根源分析

维度不匹配的本质：错误信息显示张量a(20475)与张量b(20280)在第1维度不匹配。这表明视频帧数据与姿态数据在某个处理阶段出现了帧数或分辨率不一致的情况。
关键因素：
- 视频帧总数必须与姿态数据帧数完全一致
- 分辨率设置会影响最终张量的尺寸计算
- 模型内部对输入尺寸有严格的数学要求
常见触发场景：
- 分辨率设置不当导致计算出的特征图尺寸不匹配
- 预处理阶段帧提取与姿态估计的帧数不一致
- 模型内部上采样/下采样操作导致尺寸变化

解决方案

根据项目维护者的反馈和用户的实际解决经验，可以采取以下方法：

调整分辨率：如用户所述，将分辨率从840调整为848后问题解决。这是因为某些模型对输入尺寸有特定要求(如需要是16的倍数)，调整到兼容的尺寸可以避免内部计算时的尺寸不匹配。
检查帧数一致性：
- 确保视频提取的帧数与姿态估计的帧数完全相同
- 检查预处理流程中是否有帧丢失或重复的情况
验证数据流：
- 在关键处理节点添加尺寸检查
- 确保所有输入数据流在进入融合计算前已经过统一处理