Swift框架下多模态模型Qwen2.5-VL序列并行训练的优化实践

2025-05-31 14:47:17作者：柏廷章Berta

魔搭大模型训练推理工具箱，支持LLaMA、千问、ChatGLM、BaiChuan等多种模型及LoRA等多种训练方式(The LLM training/inference framework of ModelScope community, Support various models like LLaMA, Qwen, Baichuan, ChatGLM and others, and training methods like LoRA, ResTuning, NEFTune, etc.)

项目地址：https://gitcode.com/GitHub_Trending/swift1/swift

背景与问题场景

在基于Swift框架训练Qwen2.5-VL这类多模态大语言模型时，当输入序列较长需要启用序列并行（Sequence Parallelism）技术时，常规的序列拆分策略会破坏视觉标记（Vision Tokens）的完整性。具体表现为：

图像标记（如151652-151655等特殊token）被错误截断
RoPE位置编码计算时出现维度不匹配
模型无法正确处理被分割的视觉信息

这种现象的根源在于：传统序列并行策略仅考虑文本序列的均匀分割，而忽略了多模态数据中视觉标记的结构性特征。

技术原理分析

序列并行的常规实现

标准序列并行通常采用以下处理流程：

对输入序列进行右填充（Padding）至可整除长度
将序列均匀分割为N个等长子序列（N为并行数）
各计算节点处理分配到的子序列

这种方法对纯文本任务有效，因为：

文本token具有独立语义
位置编码可通过相对位置恢复

多模态数据的特殊性

Qwen2.5-VL等视觉语言模型中的视觉标记具有以下特征：

结构性标记：包含视觉开始/结束标记（如151652/151653）
连续语义：图像标记（151655）需要保持连续
位置敏感：RoPE编码依赖完整的视觉标记区间

直接应用标准序列拆分会导致：

视觉开始/结束标记被分离
图像标记块被割裂
位置编码计算错误

解决方案设计与实现

核心改进思路

我们提出视觉感知的序列拆分策略，关键改进点包括：

视觉区间检测
- 识别输入中的视觉开始/结束标记对
- 建立视觉标记保护区间
安全拆分点计算
- 排除视觉区间内的拆分点
- 动态计算最优拆分位置
维度兼容处理
- 支持不同格式的位置编码输入
- 保持各并行节点的张量一致性

关键代码实现

主要修改位于序列并行处理函数pad_and_split_for_sequence_parallel：

def split_inputs_with_visual_tokens(input_ids, labels, position_ids, 
                                  attention_mask, special_token_ids, sp_group):
    # 1. 检测视觉标记区间
    visual_spans = []
    for sample in input_ids:
        starts = (sample == special_token_ids["vision_start"]).nonzero()
        ends = (sample == special_token_ids["vision_end"]).nonzero()
        visual_spans.append(zip(starts, ends))
    
    # 2. 计算安全拆分点
    safe_splits = set(range(seq_len))
    for span in visual_spans:
        safe_splits -= set(range(span[0], span[1]+1))
    
    # 3. 动态拆分策略
    split_points = calculate_optimal_splits(seq_len, world_size, safe_splits)
    
    # 4. 执行拆分
    return [tensor[:, start:end] for tensor in input_tensors]

训练配置建议

实际应用时需要特别注意：

# 必须配置的参数
--sequence_parallel_size 2  # 根据GPU数量设置
--max_length 16000         # 确保能容纳视觉标记
--truncation_strategy delete # 避免破坏视觉块

# 推荐配置
--attn_impl eager         # 确保兼容性
--freeze_vit true         # 固定视觉编码器