Align-Anything项目中Janus模型的文本-图像到文本任务训练解析

2025-06-24 21:37:44作者：齐冠琰

在PKU-Alignment/align-anything项目中，Janus模型作为一个多模态模型，其训练过程涉及多种任务类型。本文将重点解析文本-图像到文本任务的训练实现细节，特别是关于预处理和填充策略的技术考量。

预处理流程的差异

Janus模型针对不同任务采用了差异化的预处理流程。值得注意的是，文本到图像(text-to-image)任务需要专门的预标记化(pre-tokenize)脚本，而文本-图像到文本(text-image-to-text)任务则可以直接使用提供的DPO/SFT脚本运行。这种差异源于模型对不同模态输入输出的处理方式不同。

文本到图像任务需要预标记化是因为图像生成过程涉及复杂的潜在空间转换，而文本-图像到文本任务则可以直接利用模型现有的文本处理能力，无需额外的预处理步骤。

填充策略的设计原理

Janus模型针对不同任务采用了不同的填充策略，这一设计具有深刻的技术考量：

生成任务使用左填充(left-padding)：在语言模型生成阶段(无论生成何种模态)，采用左填充策略。这是因为语言模型没有被训练在填充标记后产生有意义的输出，左填充可以确保生成质量。
监督训练使用右填充(right-padding)：在SFT(监督微调)和DPO(直接偏好优化)训练过程中，采用右填充策略。这种设计可以防止模型在训练过程中看到填充标记，从而最大化训练效果。
PPO训练的特殊处理：在PPO(近端策略优化)训练中，由于其生成性质，会重新采用左填充策略。

这种填充策略的设计并非Janus模型特有，而是被多个训练代码库广泛采用的通用实践。实验表明，在监督训练中使用右填充通常能获得比左填充更好的效果。