Step-Video-T2V 使用教程

2026-01-30 05:26:10作者：郦嵘贵Just

项目地址：https://gitcode.com/gh_mirrors/st/Step-Video-T2V

1. 项目介绍

Step-Video-T2V 是一个基于深度学习技术的文本到视频生成模型，拥有30亿个参数，能够生成高达204帧的视频。项目采用了高效的视频VAE（变分自编码器）进行压缩，以及Direct Preference Optimization（直接偏好优化）技术，以提高生成视频的视觉质量。该模型在Step-Video-T2V-Eval基准测试中展现出卓越的性能，其视频生成质量在开源和商业引擎中处于领先地位。

2. 项目快速启动

环境准备

Python >= 3.10.0（推荐使用Anaconda或Miniconda）
PyTorch >= 2.3-cu121
CUDA Toolkit
FFmpeg

克隆项目

git clone https://github.com/stepfun-ai/Step-Video-T2V.git

创建虚拟环境并安装依赖

conda create -n stepvideo python=3.10
conda activate stepvideo
cd Step-Video-T2V
pip install -e .
pip install flash-attn --no-build-isolation

多GPU并行部署

python api/call_remote_server.py --model_dir 你的模型下载目录

然后根据返回的API服务地址，使用以下命令进行并行部署：

parallel=4
url='127.0.0.1'
model_dir=你的模型下载目录
tp_degree=2
ulysses_degree=2

make sure tp_degree x ulysses_degree = parallel

torchrun --nproc_per_node $parallel run_parallel.py --model_dir $model_dir --vae_url $url --caption_url $url --ulysses_degree $ulysses_degree --tensor_parallel_degree $tp_degree --prompt "一名宇航员在月球上发现一块石碑，上面印有“stepfun”字样，闪闪发光" --infer_steps 50  --cfg_scale 9.0 --time_shift 13.0

单GPU推理和量化

使用ModelScope提供的DiffSynth-Studio项目，可以支持单GPU推理和量化，以减少所需的显存。具体使用方法请参考他们的示例。

3. 应用案例和最佳实践

Step-Video-T2V 在推理设置中表现稳健，能够生成高质量和动态的视频。以下是一些推荐的最佳实践，用于调整推理参数以获得最佳结果：

模型	推理步数	配置比例	时间偏移	视频帧数
Step-Video-T2V	30-50	9.0	13.0	204
Step-Video-T2V-Turbo（推理步长蒸馏）	10-15	5.0	17.0	204

4. 典型生态项目

Step-Video-T2V 项目作为一个开源项目，可以激发更多的生态项目，例如：

开发新的数据集以进一步训练和优化模型。
创建Web界面或应用程序，让用户能够更方便地与模型交互。
探索新的视频生成技术，与Step-Video-T2V模型结合，以实现更丰富的视频内容创作。

通过这些生态项目，Step-Video-T2V 将能够更好地服务于用户，推动视频生成技术的发展。

项目地址：https://gitcode.com/gh_mirrors/st/Step-Video-T2V

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

昇腾LLM分布式训练框架

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统