CogVideoX 1.5 LoRA微调中的帧数对齐问题解析与解决方案

2025-05-21 20:35:05作者：伍希望

在视频生成模型CogVideoX 1.5的LoRA微调过程中，研究人员发现了一个关键的帧数对齐问题。这个问题源于模型架构中的patch_size_t参数设置与输入视频帧数之间的不匹配，导致训练过程中出现reshape错误。

问题背景

CogVideoX 1.5模型采用了特殊的时空注意力机制，其中patch_size_t参数设置为2。这意味着在时间维度上，模型会将视频帧分成大小为2的块进行处理。当输入视频经过VAE编码后，原始帧数会被压缩，例如81帧会变为21帧（81//4+1），49帧会变为13帧（49//4+1）。由于patch_size_t=2，这些压缩后的帧数必须能被2整除，否则在reshape操作时会报错。

技术细节分析

问题的核心在于模型中的reshape操作：

image_embeds = image_embeds.reshape(
    batch_size, num_frames // p_t, p_t, height // p, p, width // p, p, channels
)

其中p_t即patch_size_t=2。当压缩后的帧数（如13或21）不能被2整除时，这个操作就会失败。

解决方案探索

研究团队提出了几种解决方案：

调整输入帧数：将原始帧数设置为能被8整除的值（如85帧），这样经过VAE压缩后变为22帧（85//4+1），可以被2整除。
修改RoPE配置：在旋转位置编码(RoPE)层，需要相应调整num_frames参数，确保与patch_size_t对齐。
代码层面修复：在训练过程中增加帧数补齐逻辑，类似于推理时已经实现的机制：

if self.transformer.config.patch_size_t is not None:
    shape = shape[:1] + (shape[1] + shape[1] % self.transformer.config.patch_size_t,) + shape[2:]