LTX-Video模型v0.9.1版本safetensors格式推理方案解析

2025-06-20 13:20:52作者：宗隆裙

在视频生成领域，LTX-Video模型作为一款基于扩散模型的开源视频生成工具，提供了从单张图像生成连贯视频序列的能力。本文将重点探讨该模型v0.9.1版本训练后产生的safetensors格式文件的推理使用方法。

safetensors格式简介

safetensors是Hugging Face推出的一种新型模型权重存储格式，相比传统的PyTorch checkpoint文件，它具有以下优势：

更快的加载速度
更高的安全性
更好的跨平台兼容性
支持部分加载

v0.9.1版本推理方案

针对v0.9.1版本训练得到的safetensors文件，推荐使用diffusers库进行推理。diffusers是Hugging Face推出的专门用于扩散模型的Python库，提供了对LTX-Video模型的完整支持。

核心组件加载

推理流程需要加载三个核心组件：

视频变换器(LTXVideoTransformer3DModel)：负责视频帧的时序建模
变分自编码器(AutoencoderKLLTXVideo)：负责图像特征的编码和解码
推理管道(LTXImageToVideoPipeline)：整合各组件完成端到端推理

代码实现示例

import torch
from diffusers import AutoencoderKLLTXVideo, LTXImageToVideoPipeline, LTXVideoTransformer3DModel

# 加载模型组件
transformer = LTXVideoTransformer3DModel.from_single_file(
    "path/to/ltx-video-2b-v0.9.1.safetensors", 
    torch_dtype=torch.bfloat16
)
vae = AutoencoderKLLTXVideo.from_single_file(
    "path/to/ltx-video-2b-v0.9.1.safetensors",
    torch_dtype=torch.bfloat16
)

# 构建推理管道
pipe = LTXImageToVideoPipeline.from_pretrained(
    "Lightricks/LTX-Video",
    transformer=transformer,
    vae=vae,
    torch_dtype=torch.bfloat16
)

LoRA适配器支持

该方案还支持加载LoRA(Low-Rank Adaptation)适配器，方便用户对预训练模型进行微调：

# 加载LoRA权重
pipe.load_lora_weights(
    "path/to/lora",
    weight_name="pytorch_lora_weights.safetensors",
    adapter_name="custom_adapter"
)

# 设置适配器强度
pipe.set_adapters("custom_adapter", 0.8)