LLaMA-Factory项目中Qwen 2.5 VL模型的持续预训练实践

2025-05-01 08:27:10作者：柏廷章Berta

背景概述

LLaMA-Factory作为一个开源的大模型训练框架，近期在社区中引起了广泛关注。其中关于Qwen 2.5 VL（视觉语言）模型的持续预训练（Continued Pretraining，简称CPT）问题，反映了当前多模态模型训练中的一些技术挑战。

目前LLaMA-Factory框架对Qwen 2.5 VL模型的支持主要集中在两个阶段：

对于持续预训练（CPT）阶段，框架尚未提供原生支持。这主要是因为多模态预训练相比纯文本预训练存在额外的复杂性。

实现Qwen 2.5 VL的持续预训练面临几个关键技术问题：

虽然框架尚未原生支持，但技术社区提出了一些可能的解决方案：

<IMG1><trainable_text>描述文本1</trainable_text>
<IMG2><trainable_text>描述文本2</trainable_text>

对于急需进行Qwen 2.5 VL持续预训练的用户，可以考虑：

LLaMA-Factory项目在Qwen 2.5 VL模型的持续预训练支持上还有发展空间，这反映了多模态大模型训练的技术复杂性。随着项目的迭代更新，相信未来会提供更完善的多模态训练解决方案。在此期间，技术社区可以通过各种临时方案满足特定场景下的训练需求。

登录后查看全文