LLaMA-Factory项目中视频处理模块的优化与问题解决

2025-05-02 01:31:04作者：邵娇湘

在LLaMA-Factory项目的开发过程中，视频处理模块出现了一个值得关注的技术问题。该问题主要涉及视频数据预处理时图像标记长度不一致导致的张量拼接错误，本文将深入分析问题原因并提供解决方案。

问题现象

当处理视频数据时，系统会抛出RuntimeError异常，提示张量尺寸不匹配。具体错误信息显示，在mm_plugin.py文件的第556行，系统期望的尺寸是59，但实际获得的尺寸是58。这种尺寸不一致导致torch.hstack操作无法正常执行。

经过技术团队深入排查，发现该问题主要由以下两个因素共同导致：

视觉标记数量过多：当视频分辨率过高或视频过长时，生成的视觉标记(token)数量会显著增加。在默认配置下，这些标记可能会超过模型的最大上下文长度(cutoff_len)。
预处理逻辑缺陷：原始代码中使用max函数处理图像起始和结束标记的长度，当两者不一致时会导致后续处理失败。这种设计假设起始和结束标记总是成对出现且数量相同，但在实际视频处理中可能存在差异。

技术团队提出了三种可行的解决方案：

修改预处理逻辑：将max(len(image_start_tokens), len(image_end_tokens))改为min(len(image_start_tokens), len(image_end_tokens))。这种方法可以确保张量拼接时的尺寸一致，但需要评估是否会影响模型性能。
调整模型参数：增加cutoff_len到8192，为视觉标记提供更大的容量空间。这种方法简单直接，但会增加计算资源消耗。
优化视频参数配置：
- 调整video_maxlen参数，控制每段视频采样的帧数
- 修改video_fps参数，降低视频帧率
- 这两种方法都能有效减少生成的视觉标记数量