无标注也能训视频模型？Open-Sora自监督学习突破数据瓶颈

2026-02-05 05:42:52作者：郦嵘贵Just

你是否还在为视频生成模型训练时标注数据匮乏而烦恼？是否希望用更少的标注成本实现高效视频制作？本文将带你了解Open-Sora项目如何通过自监督学习技术，在无标注数据的情况下实现视频表示学习，读完你将掌握：Open-Sora自监督学习的核心原理、Video DC-AE架构的创新点、从零开始训练视频自编码器的完整流程，以及如何利用自监督模型提升视频生成质量。

自监督学习：视频生成的新范式

传统视频生成模型依赖大量标注数据，而Open-Sora提出的自监督学习方案打破了这一限制。通过自监督学习（Self-Supervised Learning），模型能够从无标注视频数据中自动学习有用的特征表示，无需人工标注的文本描述或类别标签。这种方法不仅降低了数据获取成本，还能利用互联网上海量的无标注视频资源，极大提升了模型的泛化能力和实用性。

Open-Sora的自监督学习主要基于视频自编码器（Video Autoencoder）实现，核心是Video DC-AE架构。该架构灵感来源于SANA和DC-AE，通过在时间维度4倍和空间维度32×32倍的压缩，实现了比传统VAE更高的压缩比。与HunyuanVideo的VAE（4x8x8压缩）相比，Open-Sora的Video DC-AE在空间压缩比上有显著提升，有效减少了扩散模型中的token长度，使训练和推理速度提升16倍。

Video DC-AE架构解析

核心压缩原理

Video DC-AE的核心在于其高效的时空压缩机制。模型通过编码器将原始视频压缩为低维度的潜在表示，再通过解码器重建视频。具体来说，时间维度4倍压缩和空间维度32×32倍压缩的组合，使得视频数据在进入扩散模型之前得到极大精简。这种高压缩比不仅提高了计算效率，还保留了视频的关键时空特征，为后续的视频生成任务奠定了基础。

模型结构

Video DC-AE的实现细节可以在opensora/models/dc_ae/models/dc_ae.py中找到。该架构主要由编码器和解码器两部分组成：

编码器：负责将输入视频压缩为潜在表示。通过一系列卷积层和池化操作，逐步降低视频的时空分辨率，实现高比例压缩。
解码器：负责将潜在表示重建为原始视频。通过反卷积和上采样操作，恢复视频的时空细节。

此外，Video DC-AE还引入了判别器（Discriminator）来提升重建质量。在训练后期，通过引入对抗损失（Adversarial Loss），模型能够生成更逼真的视频内容。判别器的实现位于opensora/models/vae/discriminator.py。

损失函数设计

Video DC-AE的训练损失由两部分组成：

重建损失（Reconstruction Loss）：衡量重建视频与原始视频的相似度，确保模型能够准确捕捉视频的基本特征。
感知损失（Perceptual Loss）：通过预训练的视觉模型提取特征，衡量重建视频与原始视频在高层语义上的相似度。实验表明，将感知损失权重设为0.5能取得较好效果。

在引入判别器后，损失函数中增加了生成器损失（Generator Loss），权重设为0.05。判别器则使用hinge损失函数，具体配置可参考configs/vae/train/video_dc_ae_disc.py中的损失配置：

vae_loss_config = dict(
    perceptual_loss_weight=0.5,  # 感知损失权重
    kl_loss_weight=0,            # 无KL损失
)
gen_loss_config = dict(
    gen_start=0,                 # 从第0步开始使用生成器损失
    disc_weight=0.05,            # 生成器损失权重
)
disc_loss_config = dict(
    disc_start=0,                # 从第0步开始更新判别器
    disc_loss_type="hinge",      # 使用hinge损失
)

从零开始训练Video DC-AE

数据准备

首先需要准备训练数据，可参考docs/train.md#prepare-dataset的指南。你可以使用Open-Sora提供的数据集或自定义数据集。若使用自定义数据集，只需在训练命令中指定--dataset.data_path <your_data_path>参数。

训练步骤

Video DC-AE的训练分为两个阶段：基础模型训练和引入判别器的微调。

阶段一：基础模型训练

使用以下命令启动基础模型训练，该阶段在8块GPU上训练约3周：

torchrun --nproc_per_node 8 scripts/vae/train.py configs/vae/train/video_dc_ae.py

训练配置文件configs/vae/train/video_dc_ae.py中定义了模型的基本参数，包括数据桶配置、损失函数权重等。默认使用32帧256px分辨率的视频进行训练：

bucket_config = {
    "256px_ar1:1": {32: (1.0, 1)},
}

阶段二：引入判别器微调

当基础模型接近收敛后，引入判别器继续训练。使用以下命令，其中<model_ckpt>是阶段一训练得到的模型 checkpoint：

torchrun --nproc_per_node 8 scripts/vae/train.py configs/vae/train/video_dc_ae_disc.py --model.from_pretrained <model_ckpt>

判别器训练的配置文件configs/vae/train/video_dc_ae_disc.py中增加了生成器和判别器的损失配置。若需要跟踪训练进度，可添加--wandb True参数启用Weights & Biases日志。

高级训练配置

若要训练更长帧或更高分辨率的视频，可调整数据桶配置并启用梯度检查点（Gradient Checkpointing）以避免显存溢出。例如，训练96帧视频：

bucket_config = {
    "256px_ar1:1": {96: (1.0, 1)},
}
grad_checkpoint = True

训练512px分辨率视频：

bucket_config = {
    "512px_ar1:1": {32: (1.0, 1)},
}
grad_checkpoint = True

在判别器训练中启用梯度检查点时，需设置--model.disc_off_grad_ckpt True参数：

model = dict(
    disc_off_grad_ckpt=True,  # 当grad_checkpoint为True时设置
)

模型推理与评估

模型下载

训练完成后，可使用自己的模型 checkpoint 进行推理，或从Huggingface、ModelScope下载预训练模型。下载命令如下：

# Huggingface下载
pip install "huggingface_hub[cli]"
huggingface-cli download hpcai-tech/Open-Sora-v2 --local-dir ./ckpts

# ModelScope下载
pip install modelscope
modelscope download hpcai-tech/Open-Sora-v2 --local_dir ./ckpts

推理命令

使用以下命令进行视频重建推理，结果将保存到指定目录：

# Video DC-AE推理
torchrun --nproc_per_node 1 --standalone scripts/vae/inference.py configs/vae/inference/video_dc_ae.py --save-dir samples/dcae

# HunyuanVideo VAE推理（对比用）
torchrun --nproc_per_node 1 --standalone scripts/vae/inference.py configs/vae/inference/hunyuanvideo_vae.py --save-dir samples/hunyuanvideo_vae

推理配置文件configs/vae/inference/video_dc_ae.py中启用了时空分块（Tiling）机制，以处理高分辨率和长视频：

model = dict(
    use_spatial_tiling=True,
    use_temporal_tiling=True,
    spatial_tile_size=256,
    temporal_tile_size=32,
    tile_overlap_factor=0.25,
)

评估指标

Video DC-AE的评估主要关注重建视频的质量和压缩效率。通过对比重建视频与原始视频的PSNR、SSIM等指标，可以量化模型的重建性能。此外，模型的压缩比和推理速度也是重要的评估指标，Open-Sora的Video DC-AE在这些方面表现优于传统VAE。

应用场景与优势

数据效率提升

自监督学习使Open-Sora能够利用海量无标注视频数据，大大降低了对标注数据的依赖。这对于数据标注成本高、标注难度大的视频生成任务尤为重要，尤其是在特定领域（如医学、工业）的视频数据上。

视频生成质量提升

通过自监督学习学到的视频表示，能够更好地捕捉视频的时空特征，为后续的文本到视频（Text-to-Video）、图像到视频（Image-to-Video）等生成任务提供更高质量的初始化。例如，在Image-to-Video任务中，使用Video DC-AE作为特征提取器，能够生成更连贯、更逼真的视频。