如何在ModelScope/SWIFT项目中正确微调DeepSeekVL模型

2025-05-31 04:22:14作者：霍妲思

Use PEFT or Full-parameter to CPT/SFT/DPO/GRPO 600+ LLMs (Qwen3.6, DeepSeek-V4, GLM-5.1, InternLM3, Llama4, ...) and 300+ MLLMs (Qwen3-VL, Qwen3-Omni, InternVL3.5, Ovis2.5, GLM4.5v, Gemma4, Llava, Phi4, ...) (AAAI 2025).

项目地址：https://gitcode.com/GitHub_Trending/swift1/swift

数据集格式要求

在ModelScope/SWIFT项目中进行DeepSeekVL模型的微调时，数据集格式有特定要求。正确的格式应使用<image>标签而不是<image_placeholder>来表示图像位置。

常见错误示例

许多开发者在使用时会犯以下错误：

使用旧版本的<image_placeholder>标签
JSON文件格式不正确导致解析失败
混淆了SWIFT不同版本间的命令行参数

正确格式示范

一个有效的JSONL文件行应该如下所示：

{"query": "<image>描述一下机器人在做什么", "response": "拿东西", "image": ["demo/100.png"]}

训练命令差异

SWIFT 2.x和3.x版本在训练命令上存在不兼容的变更。开发者需要注意：

参数名称可能发生变化
功能实现方式可能有差异
错误提示信息可能不同

最佳实践建议

始终参考项目最新文档
使用示例代码作为模板
验证JSON文件格式有效性
确认SWIFT版本与命令匹配

通过遵循这些规范，可以避免常见的微调过程中的配置错误，确保模型训练顺利进行。

swift

项目地址：https://gitcode.com/GitHub_Trending/swift1/swift

登录后查看全文

项目优选

收起

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

471

473

pytorch

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

Dart

1.04 K

272