LongCat-Video：13.6B参数开源视频生成模型，5分钟长视频创作新纪元

2026-02-07 05:07:40作者：胡易黎Nicole

LongCat-Video是美团开源的136亿参数视频生成模型，支持文本转视频、图像转视频及视频续播任务。采用统一架构，原生支持分钟级长视频生成，无色彩漂移与质量下降问题。通过时空轴粗细生成策略和块稀疏注意力，可高效生成720p 30fps视频，性能媲美主流开源及商业方案。

项目地址：https://gitcode.com/hf_mirrors/meituan-longcat/LongCat-Video

🚀 技术突破：美团LongCat团队最新发布的13.6亿参数视频生成模型LongCat-Video，以其统一架构完美支持文生视频、图生视频和视频续写三大核心任务，为开源视频生成领域树立了全新标杆。

🔥 核心优势：全能型视频创作引擎

一体化设计理念

LongCat-Video采用创新的Diffusion Transformer架构，通过"条件帧数量"实现任务智能区分，让单一模型无需额外适配即可完成从创意到成片的全流程制作。

三大应用场景：

文字转视频：直接输入文本描述，生成720p/30fps高清视频
图片转视频：基于参考图生成动态内容，保留主体风格
视频续写：基于前序内容自动延展，打造完整叙事

长视频生成能力

原生支持5分钟级别长视频生成，彻底告别色彩漂移、画质下降等传统痛点。无论是数字人直播、产品展示还是教育培训，都能提供稳定可靠的视频输出。

⚡ 性能表现：开源领域的领跑者

评测数据亮眼

在内部基准测试中，LongCat-Video展现出色表现：

评估指标	Veo3	PixVerse-V5	LongCat-Video
文本对齐度	3.99	3.81	3.76
视觉质量	3.23	3.13	3.25
运动质量	3.86	3.81	3.74
整体质量	3.48	3.36	3.38

效率优化突破

二阶段生成策略：从480p/15fps到720p/30fps的渐进式优化
块稀疏注意力：计算量降至标准密集注意力的10%以下
模型蒸馏技术：采样步骤从50步压缩至16步

🛠️ 快速上手：三步开启视频创作之旅

环境配置指南

# 克隆项目
git clone https://gitcode.com/hf_mirrors/meituan-longcat/LongCat-Video
cd LongCat-Video

# 创建虚拟环境
conda create -n longcat-video python=3.10
conda activate longcat-video

# 安装依赖
pip install -r requirements.txt

模型下载

huggingface-cli download meituan-longcat/LongCat-Video --local-dir ./weights/LongCat-Video

任务启动命令

# 文生视频任务
torchrun run_demo_text_to_video.py --checkpoint_dir=./weights/LongCat-Video --enable_compile

# 图生视频任务  
torchrun run_demo_image_to_video.py --checkpoint_dir=./weights/LongCat-Video --enable_compile

# 长视频生成任务
torchrun run_demo_long_video.py --checkpoint_dir=./weights/LongCat-Video --enable_compile

🌟 技术特色：四大创新引擎

1. 统一架构设计

LongCat-Video通过单一模型架构实现多任务支持，大幅降低开发门槛和使用成本。

2. 时序一致性保障

创新的Block-Causual Attention机制确保跨帧内容的一致性，消除传统模型中的动态断裂问题。

3. 物理合理性建模

模型能够理解真实世界物理规律，生成符合逻辑的动态场景。

4. 高效推理加速

相比同类模型，LongCat-Video的推理速度提升10.1倍，让视频创作更加流畅高效。

💼 应用场景：多领域赋能创新

内容创作领域

短视频制作：快速生成营销视频、产品展示
教育培训：制作动态教学材料、技能演示
娱乐媒体：创作动画内容、虚拟主播互动

商业应用前景

本地生活服务：商家动态展示、产品使用教程
自动驾驶模拟：交通场景预测与训练
具身智能交互：机器人环境理解与响应

📈 未来发展：迈向世界模型的新征程

LongCat-Video的发布只是起点，技术团队正朝着以下方向持续演进：

4K超高清支持：提升画面细节表现力
60fps高帧率：实现更流畅的动态效果
物理规律增强：更精准的现实世界模拟
多镜头叙事：智能剪辑与故事线构建

🎯 使用建议

新手友好：LongCat-Video针对普通用户优化，无需深厚技术背景即可快速上手。

专业适配：提供完整的API接口和模块化设计，满足开发者定制化需求。

安全合规：模型遵循MIT开源协议，确保商业使用的合法性与安全性。

技术价值：LongCat-Video的开源将推动视频生成技术的普及，为中小企业和个人创作者提供强大的创作工具，开启视频内容创作的新时代。

行业影响：作为探索"世界模型"的重要一步，LongCat-Video为构建能够理解和预测真实世界的人工智能系统奠定坚实基础。

LongCat-Video是美团开源的136亿参数视频生成模型，支持文本转视频、图像转视频及视频续播任务。采用统一架构，原生支持分钟级长视频生成，无色彩漂移与质量下降问题。通过时空轴粗细生成策略和块稀疏注意力，可高效生成720p 30fps视频，性能媲美主流开源及商业方案。

项目地址：https://gitcode.com/hf_mirrors/meituan-longcat/LongCat-Video

登录后查看全文

热门内容推荐

1 【亲测免费】开源项目 `build-your-own-x` 使用指南 2 【亲测免费】探索科技之旅：《Build Your Own X》项目详解 3 GitHub_Trending/bu/build-your-own-x自动化：CI/CD流程在自制项目中的应用 4 从零打造智能家居系统：用build-your-own-x实现家庭自动化

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

昇腾LLM分布式训练框架

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

flutter_flutter

ohos_react_native

React Native鸿蒙化仓库

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力