美团LongCat-Video开源:136亿参数视频大模型实现5分钟长视频生成,推理速度提升10.1倍
导语
美团LongCat团队正式发布并开源136亿参数视频生成模型LongCat-Video,以统一架构支持文生视频、图生视频和视频续写三大任务,实现5分钟720p/30fps长视频生成,推理速度较传统方法提升10.1倍,开启开源长视频生成新纪元。
行业现状:视频生成技术的"双轨革命"
2025年AI视频生成领域呈现"技术跑分"与"商业跑量"并行的竞争格局。据行业报告显示,全球视频生成市场规模已突破300亿美元,年复合增长率维持在40%以上高位水平。当前主流模型普遍面临三大痛点:长视频生成时的色彩漂移与质量降解、高分辨率视频推理效率低下、多任务适配需多模型部署。
在技术路线上,视频生成模型正从"单任务专精"向"多任务统一"演进。以谷歌Veo3、PixVerse-V5为代表的闭源模型在质量上领先,但受限于商业授权;而开源模型如Wan2.2虽开放可访问,却存在参数规模庞大(28B总参数)、激活效率不足等问题。在此背景下,美团LongCat-Video以13.6B稠密参数实现多任务SOTA性能,成为平衡效率与质量的关键突破。
如上图所示,黑色背景上带有绿色网络状图形元素,白色字体显示"LongCat-Video 正式发布",绿色字体标注"探索世界模型的第一步"。这一宣传说明图直观传达了美团将视频生成技术作为构建世界模型关键路径的战略定位,凸显了该模型在美团AI技术布局中的核心地位。
核心亮点:四大技术突破重构视频生成范式
1. 统一架构支持多任务,参数效率提升60%
LongCat-Video基于Diffusion Transformer(DiT)架构,创新通过"条件帧数量"实现任务区分:
- 文生视频:无需条件帧,直接从文本生成720p/30fps视频
- 图生视频:输入1帧参考图,严格保留主体属性与风格
- 视频续写:基于多帧前序内容续接,实现长时序连贯生成
这种设计使单一模型即可覆盖完整创作闭环,相比多模型方案参数效率提升60%,在内部测试中文本对齐度达到3.76分(5分制),超越开源标杆Wan2.2的3.70分。
2. 5分钟长视频生成,运动连贯性达98.3%
依托三大核心技术保障长视频质量:
- 原生视频续写预训练:从根本上建模时序依赖关系
- Block-Causual Attention机制:确保长序列推理时的注意力连贯性
- GRPO后训练:通过多 reward强化学习优化运动合理性
实际测试显示,该模型可稳定输出5分钟视频,跨帧色彩一致性达92.7%,运动断裂率仅1.7%,完美解决"越长越糊"的行业痛点。
3. 三重优化实现10.1倍推理加速
针对高分辨率视频生成的计算瓶颈,LongCat-Video采用"粗到精"生成策略:
- 二阶段时空优化:先生成480p/15fps低清视频,再经LoRA模块超分至720p/30fps
- 块稀疏注意力(BSA):将3D视觉token分块后仅计算关键块注意力,计算量降至传统方法10%以下
- 模型蒸馏:结合CFG与一致性模型蒸馏,采样步骤从50步减至16步
综合优化使720p/30fps视频生成时间缩短至分钟级,较同类模型推理速度提升10.1倍,单GPU即可流畅运行。
4. MIT开源协议,商业应用零门槛
模型权重与推理代码完全开源,采用MIT许可协议,开发者可自由用于商业场景。社区生态已快速响应,如CacheDiT项目通过DBCache和TaylorSeer技术实现1.7倍加速,进一步降低部署门槛。
性能评测:多维度对标SOTA
在文生视频任务中,LongCat-Video与主流模型的对比显示:
| 评估维度 | Veo3 | PixVerse-V5 | Wan2.2-T2V | LongCat-Video |
|---|---|---|---|---|
| 文本对齐度 | 3.99 | 3.81 | 3.70 | 3.76 |
| 视觉质量 | 3.23 | 3.13 | 3.26 | 3.25 |
| 运动质量 | 3.86 | 3.81 | 3.78 | 3.74 |
| 整体质量 | 3.48 | 3.36 | 3.35 | 3.38 |
如上图所示,该条形图直观展示了LongCat-Video与三款主流模型在四个关键维度的得分对比。可以看出,LongCat-Video在整体质量上超越Wan2.2和PixVerse-V5,仅次于闭源的Veo3,印证了其"开源SOTA"的技术定位。
在公开基准VBench 2.0上,LongCat-Video总得分62.11%,位列第三,仅次于Veo3(66.72%)和Vidu Q1(62.7%),在"常识理解"单项中以70.94%得分居所有开源模型首位。
上图的柱状对比图统计了各模型在不同评估维度的占优次数。LongCat-Video在多轮测试中累计12次指标领先,展现出均衡的综合性能。特别是在长视频生成场景,其优势更为显著,5分钟视频的质量衰减率仅为2.3%,远低于行业平均的8.7%。
行业影响:开启长视频生成新生态
LongCat-Video的开源发布将加速三大变革:
1. 内容创作民主化
分钟级长视频生成能力降低了影视创作门槛,预计将催生一批UGC长视频创作者。教育、营销等行业可快速制作动态教程与产品展示,内容生产效率提升3-5倍。
2. 世界模型研究加速
作为美团探索世界模型的第一步,该模型通过视频生成任务压缩物理规律与时空演化知识,为自动驾驶、具身智能等场景提供基础技术支撑。
3. 开源生态协同创新
MIT许可吸引开发者参与优化,目前社区已贡献多项改进:
- 多语言支持扩展至15种语言
- 低显存优化使消费级GPU可运行
- 风格化生成插件丰富创作形式
快速上手指南
环境准备
git clone https://gitcode.com/hf_mirrors/meituan-longcat/LongCat-Video
cd LongCat-Video
# 创建虚拟环境
conda create -n longcat-video python=3.10
conda activate longcat-video
# 安装依赖
pip install torch==2.6.0+cu124 torchvision==0.21.0+cu124 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu124
pip install ninja psutil packaging flash_attn==2.7.4.post1
pip install -r requirements.txt
模型下载
pip install "huggingface_hub[cli]"
huggingface-cli download meituan-longcat/LongCat-Video --local-dir ./weights/LongCat-Video
生成示例
文生视频:
torchrun run_demo_text_to_video.py --checkpoint_dir=./weights/LongCat-Video --enable_compile
视频续写:
torchrun run_demo_video_continuation.py --checkpoint_dir=./weights/LongCat-Video --enable_compile
长视频生成:
torchrun run_demo_long_video.py --checkpoint_dir=./weights/LongCat-Video --enable_compile
未来展望
美团LongCat团队表示,将持续优化三大方向:提升4K分辨率支持、扩展多镜头叙事能力、降低推理资源需求。随着模型迭代,视频生成有望从"内容创作工具"进化为"世界模拟引擎",为元宇宙、数字孪生等前沿领域提供核心动力。
对于开发者而言,现在正是加入视频生成生态的最佳时机。通过LongCat-Video,你可以:
- 探索长时序视频创作的无限可能
- 参与世界模型构建的技术前沿
- 开发创新应用并商业化落地
立即访问项目主页,开启你的长视频生成之旅!
GLM-5智谱 AI 正式发布 GLM-5,旨在应对复杂系统工程和长时域智能体任务。Jinja00
GLM-5-w4a8GLM-5-w4a8基于混合专家架构,专为复杂系统工程与长周期智能体任务设计。支持单/多节点部署,适配Atlas 800T A3,采用w4a8量化技术,结合vLLM推理优化,高效平衡性能与精度,助力智能应用开发Jinja00
请把这个活动推给顶尖程序员😎本次活动专为懂行的顶尖程序员量身打造,聚焦AtomGit首发开源模型的实际应用与深度测评,拒绝大众化浅层体验,邀请具备扎实技术功底、开源经验或模型测评能力的顶尖开发者,深度参与模型体验、性能测评,通过发布技术帖子、提交测评报告、上传实践项目成果等形式,挖掘模型核心价值,共建AtomGit开源模型生态,彰显顶尖程序员的技术洞察力与实践能力。00
Kimi-K2.5Kimi K2.5 是一款开源的原生多模态智能体模型,它在 Kimi-K2-Base 的基础上,通过对约 15 万亿混合视觉和文本 tokens 进行持续预训练构建而成。该模型将视觉与语言理解、高级智能体能力、即时模式与思考模式,以及对话式与智能体范式无缝融合。Python00
MiniMax-M2.5MiniMax-M2.5开源模型,经数十万复杂环境强化训练,在代码生成、工具调用、办公自动化等经济价值任务中表现卓越。SWE-Bench Verified得分80.2%,Multi-SWE-Bench达51.3%,BrowseComp获76.3%。推理速度比M2.1快37%,与Claude Opus 4.6相当,每小时仅需0.3-1美元,成本仅为同类模型1/10-1/20,为智能应用开发提供高效经济选择。【此简介由AI生成】Python00
Qwen3.5Qwen3.5 昇腾 vLLM 部署教程。Qwen3.5 是 Qwen 系列最新的旗舰多模态模型,采用 MoE(混合专家)架构,在保持强大模型能力的同时显著降低了推理成本。00- RRing-2.5-1TRing-2.5-1T:全球首个基于混合线性注意力架构的开源万亿参数思考模型。Python00


