首页
/ 美团LongCat-Video开源:136亿参数视频大模型实现5分钟长视频生成,推理速度提升10.1倍

美团LongCat-Video开源:136亿参数视频大模型实现5分钟长视频生成,推理速度提升10.1倍

2026-02-06 05:13:21作者:袁立春Spencer

导语

美团LongCat团队正式发布并开源136亿参数视频生成模型LongCat-Video,以统一架构支持文生视频、图生视频和视频续写三大任务,实现5分钟720p/30fps长视频生成,推理速度较传统方法提升10.1倍,开启开源长视频生成新纪元。

行业现状:视频生成技术的"双轨革命"

2025年AI视频生成领域呈现"技术跑分"与"商业跑量"并行的竞争格局。据行业报告显示,全球视频生成市场规模已突破300亿美元,年复合增长率维持在40%以上高位水平。当前主流模型普遍面临三大痛点:长视频生成时的色彩漂移与质量降解、高分辨率视频推理效率低下、多任务适配需多模型部署。

在技术路线上,视频生成模型正从"单任务专精"向"多任务统一"演进。以谷歌Veo3、PixVerse-V5为代表的闭源模型在质量上领先,但受限于商业授权;而开源模型如Wan2.2虽开放可访问,却存在参数规模庞大(28B总参数)、激活效率不足等问题。在此背景下,美团LongCat-Video以13.6B稠密参数实现多任务SOTA性能,成为平衡效率与质量的关键突破。

LongCat-Video 正式发布

如上图所示,黑色背景上带有绿色网络状图形元素,白色字体显示"LongCat-Video 正式发布",绿色字体标注"探索世界模型的第一步"。这一宣传说明图直观传达了美团将视频生成技术作为构建世界模型关键路径的战略定位,凸显了该模型在美团AI技术布局中的核心地位。

核心亮点:四大技术突破重构视频生成范式

1. 统一架构支持多任务,参数效率提升60%

LongCat-Video基于Diffusion Transformer(DiT)架构,创新通过"条件帧数量"实现任务区分:

  • 文生视频:无需条件帧,直接从文本生成720p/30fps视频
  • 图生视频:输入1帧参考图,严格保留主体属性与风格
  • 视频续写:基于多帧前序内容续接,实现长时序连贯生成

这种设计使单一模型即可覆盖完整创作闭环,相比多模型方案参数效率提升60%,在内部测试中文本对齐度达到3.76分(5分制),超越开源标杆Wan2.2的3.70分。

2. 5分钟长视频生成,运动连贯性达98.3%

依托三大核心技术保障长视频质量:

  • 原生视频续写预训练:从根本上建模时序依赖关系
  • Block-Causual Attention机制:确保长序列推理时的注意力连贯性
  • GRPO后训练:通过多 reward强化学习优化运动合理性

实际测试显示,该模型可稳定输出5分钟视频,跨帧色彩一致性达92.7%,运动断裂率仅1.7%,完美解决"越长越糊"的行业痛点。

3. 三重优化实现10.1倍推理加速

针对高分辨率视频生成的计算瓶颈,LongCat-Video采用"粗到精"生成策略:

  1. 二阶段时空优化:先生成480p/15fps低清视频,再经LoRA模块超分至720p/30fps
  2. 块稀疏注意力(BSA):将3D视觉token分块后仅计算关键块注意力,计算量降至传统方法10%以下
  3. 模型蒸馏:结合CFG与一致性模型蒸馏,采样步骤从50步减至16步

综合优化使720p/30fps视频生成时间缩短至分钟级,较同类模型推理速度提升10.1倍,单GPU即可流畅运行。

4. MIT开源协议,商业应用零门槛

模型权重与推理代码完全开源,采用MIT许可协议,开发者可自由用于商业场景。社区生态已快速响应,如CacheDiT项目通过DBCache和TaylorSeer技术实现1.7倍加速,进一步降低部署门槛。

性能评测:多维度对标SOTA

在文生视频任务中,LongCat-Video与主流模型的对比显示:

评估维度 Veo3 PixVerse-V5 Wan2.2-T2V LongCat-Video
文本对齐度 3.99 3.81 3.70 3.76
视觉质量 3.23 3.13 3.26 3.25
运动质量 3.86 3.81 3.78 3.74
整体质量 3.48 3.36 3.35 3.38

文生视频性能对比

如上图所示,该条形图直观展示了LongCat-Video与三款主流模型在四个关键维度的得分对比。可以看出,LongCat-Video在整体质量上超越Wan2.2和PixVerse-V5,仅次于闭源的Veo3,印证了其"开源SOTA"的技术定位。

在公开基准VBench 2.0上,LongCat-Video总得分62.11%,位列第三,仅次于Veo3(66.72%)和Vidu Q1(62.7%),在"常识理解"单项中以70.94%得分居所有开源模型首位。

模型综合性能雷达图

上图的柱状对比图统计了各模型在不同评估维度的占优次数。LongCat-Video在多轮测试中累计12次指标领先,展现出均衡的综合性能。特别是在长视频生成场景,其优势更为显著,5分钟视频的质量衰减率仅为2.3%,远低于行业平均的8.7%。

行业影响:开启长视频生成新生态

LongCat-Video的开源发布将加速三大变革:

1. 内容创作民主化

分钟级长视频生成能力降低了影视创作门槛,预计将催生一批UGC长视频创作者。教育、营销等行业可快速制作动态教程与产品展示,内容生产效率提升3-5倍。

2. 世界模型研究加速

作为美团探索世界模型的第一步,该模型通过视频生成任务压缩物理规律与时空演化知识,为自动驾驶、具身智能等场景提供基础技术支撑。

3. 开源生态协同创新

MIT许可吸引开发者参与优化,目前社区已贡献多项改进:

  • 多语言支持扩展至15种语言
  • 低显存优化使消费级GPU可运行
  • 风格化生成插件丰富创作形式

快速上手指南

环境准备

git clone https://gitcode.com/hf_mirrors/meituan-longcat/LongCat-Video
cd LongCat-Video

# 创建虚拟环境
conda create -n longcat-video python=3.10
conda activate longcat-video

# 安装依赖
pip install torch==2.6.0+cu124 torchvision==0.21.0+cu124 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu124
pip install ninja psutil packaging flash_attn==2.7.4.post1
pip install -r requirements.txt

模型下载

pip install "huggingface_hub[cli]"
huggingface-cli download meituan-longcat/LongCat-Video --local-dir ./weights/LongCat-Video

生成示例

文生视频

torchrun run_demo_text_to_video.py --checkpoint_dir=./weights/LongCat-Video --enable_compile

视频续写

torchrun run_demo_video_continuation.py --checkpoint_dir=./weights/LongCat-Video --enable_compile

长视频生成

torchrun run_demo_long_video.py --checkpoint_dir=./weights/LongCat-Video --enable_compile

未来展望

美团LongCat团队表示,将持续优化三大方向:提升4K分辨率支持、扩展多镜头叙事能力、降低推理资源需求。随着模型迭代,视频生成有望从"内容创作工具"进化为"世界模拟引擎",为元宇宙、数字孪生等前沿领域提供核心动力。

对于开发者而言,现在正是加入视频生成生态的最佳时机。通过LongCat-Video,你可以:

  • 探索长时序视频创作的无限可能
  • 参与世界模型构建的技术前沿
  • 开发创新应用并商业化落地

立即访问项目主页,开启你的长视频生成之旅!

登录后查看全文
热门项目推荐
相关项目推荐