Swift项目中使用Qwen2VL模型进行全参数序列分类训练的技术解析

2025-05-31 01:39:44作者：翟萌耘Ralph

Use PEFT or Full-parameter to CPT/SFT/DPO/GRPO 600+ LLMs (Qwen3.6, DeepSeek-R1, GLM-5.1, InternLM3, Llama4, ...) and 300+ MLLMs (Qwen3-VL, Qwen3-Omni, InternVL3.5, Ovis2.5, GLM4.5v, Gemma4, Llava, Phi4, ...) (AAAI 2025).

项目地址：https://gitcode.com/GitHub_Trending/swift1/swift

在Swift项目（版本3.1.0.dev0）中，开发者可以利用Qwen2VL多模态模型进行序列分类任务训练。本文将深入探讨如何正确配置全参数训练流程，并分析常见问题的解决方案。

全参数训练与推理配置要点

进行全参数训练时，关键配置参数包括：

model_type: 设置为qwen2_vl
train_type: 设置为full
task_type: 设置为seq_cls
num_labels: 指定分类类别数
use_chat_template: 设置为true以启用对话模板

典型训练命令示例：

MAX_PIXELS=602112 CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 NPROC_PER_NODE=8 swift sft \
    --model /path/to/local/qwenvl2_instruct_ckpt \
    --model_type qwen2_vl \
    --train_type full \
    --dataset /path/to/train_dataset.jsonl \
    --val_dataset /path/to/val_dataset.jsonl \
    --dataloader_num_workers 4 \
    --num_labels 4 \
    --task_type seq_cls \
    --use_chat_template true \
    --deepspeed zero2 \
    --attn_impl flash_attn

数据格式规范

训练和验证数据集应采用JSONL格式，每条记录包含：

messages字段：定义用户提示
images字段：图像路径数组
label字段：分类标签

示例数据记录：

{
  "messages": [{"role": "user", "content": "<image>分类这张图。"}],
  "images": ["/path/to/image1.jpg"],
  "label": 0
}

推理阶段的正确配置

全参数训练后推理时，必须使用--model参数而非--adapters参数指定模型路径：

CUDA_VISIBLE_DEVICES=0 \
MAX_PIXELS=602112 \
swift infer \
     --model /path/to/ckpt \
     --val_dataset /path/to/val_dataset.jsonl

常见问题分析

输出标签单一问题：
- 原因：通常是由于推理时错误使用了--adapters参数而非--model参数
- 解决方案：确保全参数推理时使用--model参数
InternVL2.5-1B模型输出空白问题：
- 现象：全参数SFT后使用--model输出空白，而--adapter正常
- 可能原因：模型权重保存或加载异常
- 建议检查点：验证模型保存完整性，检查推理脚本兼容性