【亲测免费】 FramePack 开源项目教程

2026-01-31 04:39:34作者：毕习沙Eudora

1. 项目介绍

FramePack 是一个用于视频生成的神经网络结构，它通过预测下一帧（或下一帧段）来逐步生成视频。该模型的特点是将输入的上下文压缩到固定长度，使得生成的工作负载不会随着视频长度的增加而增加。FramePack 能够在笔记本电脑的 GPU 上处理大量帧，即使是 13B 大小的模型也能正常运行。此外，FramePack 可以使用比图像扩散训练更大的批量大小进行训练。

2. 项目快速启动

环境要求

GPU：支持 fp16 和 bf16 的 Nvidia RTX 30XX、40XX、50XX 系列。GTX 10XX/20XX 系列未经测试。
操作系统：Linux 或 Windows。
GPU 内存：至少 6GB。生成 1 分钟（1800 帧）30fps 的视频，建议使用至少 6GB GPU 内存。

安装

Windows

一键安装包即将发布，请明天再回来查看。

Linux

推荐使用独立的 Python 3.10 环境。

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126
pip install -r requirements.txt

启动 GUI：

python demo_gradio.py

注意，该软件支持 PyTorch attention、xformers、flash-attn、sage-attention。默认情况下，它将使用 PyTorch attention。如果你知道如何操作，可以安装其他注意力内核。

例如，安装 sage-attention（Linux）：

pip install sageattention==1.0.6

但是，我们强烈建议首先不使用 sage-attention，因为它会影响结果，尽管影响很小。

3. 应用案例和最佳实践

GUI 使用

在左侧上传图像并编写提示。
在右侧将显示生成的视频和潜在预览。
由于这是一个下一帧段预测模型，视频会逐渐变长。
你将看到每个段的进度条和下一段的潜在预览。
注意，初始进度可能比后来的扩散慢，因为设备可能需要预热。

敏感性测试

在尝试自己的输入之前，我们强烈建议进行敏感性测试，以找出硬件或软件是否出现问题。下一帧段预测模型对噪声和硬件的细微差异非常敏感。通常，不同设备上的人们会得到略微不同的结果，但结果应该看起来大体相似。在某些情况下，如果可能，你会得到完全相同的结果。

示例

图片到 5 秒视频：上传图片，复制提示，设置参数（所有默认参数，关闭 teacache），生成结果为 0.mp4。
图片到 1 分钟视频：设置视频长度为 60 秒，如果一切正常，最终会得到类似的结果。

提示指南

许多用户会询问如何编写更好的提示。以下是一个 ChatGPT 模板，我个人经常用来获取提示。
当用户发送图片时，以简短、动作焦点的方式描述视觉动作。例如：“女孩优雅地跳舞，动作清晰，充满魅力。”

4. 典型生态项目

由于 FramePack 是一个专注于视频生成的项目，其生态项目可能包括：

视频编辑和后处理工具。
与其他视频生成模型的集成。
用于培训 FramePack 的数据集和工具。
基于 FramePack 的定制应用程序，如动画制作或游戏开发。

FramePack

Lets make video diffusion practical!

项目地址：https://gitcode.com/gh_mirrors/fr/FramePack

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件，通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求，让密码技术应用更简单，同时探索后量子等先进算法创新实践，构建密码前沿技术底座！

1.1 K

611

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

C++

1.01 K

MindSpeed-MM

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。