Open-Sora项目中文本与VAE组件的训练状态解析

2025-05-08 21:37:27作者：尤峻淳Whitney

在Open-Sora这一开源视频生成项目中，其核心架构采用了DiT(Diffusion Transformer)作为主要模型。根据项目开发者的确认，当前版本在训练过程中对文本编码器和VAE(Variational Autoencoder)组件采取了冻结策略。

文本编码器作为将输入文本转换为潜在表示的模块，在Open-Sora中被视为固定的"tokenizer"(标记器)，这意味着在训练DiT模型时，文本编码器的参数保持不变。这种设计选择可能是基于以下技术考量：预训练好的文本编码器已经具备强大的语义理解能力，冻结参数可以避免破坏已有的语言表示空间，同时也能显著减少训练时的计算资源消耗。

VAE作为连接像素空间与潜在空间的关键组件，在初始版本中同样被冻结使用。这种处理方式与Stable Diffusion等经典扩散模型的常见做法一致，即先单独训练VAE组件，待其收敛后再固定参数用于主模型的训练。项目开发者透露，在Open-Sora 1.2版本中已经发布了经过专门训练的VAE模型，这表明团队正在逐步完善各组件模块。

这种分阶段训练策略的优势在于：首先，可以确保每个组件都达到最佳状态；其次，模块化设计使得不同组件可以独立更新和优化；最后，冻结部分组件可以大幅降低训练复杂度，使资源集中于核心的DiT模型优化。对于视频生成这类计算密集型任务，这种策略在保证模型性能的同时也兼顾了训练效率。

随着Open-Sora项目的持续迭代，我们可以期待看到更多经过完整训练的组件被逐步释放，这将为视频生成领域的研究者和开发者提供更加强大和灵活的基础模型。

Open-Sora

Open-Sora：为所有人实现高效视频制作

项目地址：https://gitcode.com/GitHub_Trending/op/Open-Sora

登录后查看全文