PlayableVideoGeneration 的项目扩展与二次开发

2025-05-28 08:46:34作者：平淮齐Percy

1. 项目的基础介绍

PlayableVideoGeneration 是一个开源项目，旨在实现可玩视频生成（Playable Video Generation, PVG）。该项目通过自我监督的方式在大规模未标记视频数据集上训练，使用户能够通过选择离散动作来控制生成的视频，就像玩游戏一样。项目的核心是CADDY模型，它能够在没有动作标签的情况下学习动作空间并生成视频。

2. 项目的核心功能

动作学习与视频生成：项目通过编码器-解码器架构，结合动作预测网络和递归动态网络，实现从输入视频序列中提取帧表示，预测动作标签，并生成新的视频帧。
自我监督训练：模型在大规模未标记的视频数据集上通过重建损失进行训练，无需动作标签。
交互式视频播放：用户可以在运行时提供动作标签，控制视频的播放，实现类似于游戏的交互体验。

3. 项目使用了哪些框架或库？

项目主要使用了以下框架或库：

PyTorch：用于构建和训练深度学习模型。
ffmpeg：用于视频帧的提取和转换。
youtube-dl：用于从YouTube自动获取视频数据集。
Weights and Biases：用于监控训练过程。

4. 项目的代码目录及介绍

项目的代码目录结构如下：

configs：包含不同配置文件的目录，用于定义训练和推理的参数。
dataset：包含用于数据集加载和处理的代码。
evaluation：包含用于评估模型性能的代码。
model：包含定义模型架构的代码。
pytorch_fid：用于计算图像的Fréchet Inception Distance (FID)。
resources：包含项目资源，如示例视频和GIF。
training：包含用于模型训练的代码。
utils：包含各种实用工具函数的代码。
.dockerignore、Dockerfile、LICENSE、README.md：分别是Docker配置文件、Dockerfile、许可证文件和项目说明文件。
build_evaluation_dataset.py、evaluate_dataset.py、get_tennis_dataset.sh、interpolate.py、play.py、train.py：分别是构建评估数据集、评估数据集、获取网球数据集、插值处理、交互式播放视频和模型训练的脚本。