美团开源LongCat-Video:136亿参数模型实现5分钟长视频生成,推理速度提升10倍
导语
2025年10月27日,美团LongCat团队正式发布并开源136亿参数视频生成模型LongCat-Video,以统一架构支持文生视频、图生视频和视频续写三大任务,实现5分钟级720p/30fps长视频生成,推理速度较同类模型提升10.1倍,开启开源视频生成技术新纪元。
行业现状:长视频生成的三大技术瓶颈
当前视频生成领域正面临三重挑战:时序一致性(跨帧色彩漂移)、物理合理性(动态违反现实规律)和生成长度限制(多数模型限于10秒内)。据相关研究显示,2025年全球AI视频生成市场规模已突破300亿美元,但长视频生成技术仍被少数商业模型垄断,开源方案普遍存在质量与效率难以兼顾的问题。
美团LongCat团队指出,视频生成模型是构建"世界模型"的关键路径——通过压缩几何、语义、物理等多模态知识,AI可在数字空间模拟真实世界运行。这一技术方向直接关联自动驾驶场景预测、具身智能环境交互等前沿领域,成为科技巨头的战略必争之地。
如上图所示,黑色背景上以白色和绿色文字呈现"LongCat-Video 正式发布"及"探索世界模型的第一步",搭配科技感几何连线图案,展示美团技术团队发布的视频生成模型相关信息。这一视觉设计凸显了LongCat-Video作为美团探索世界模型关键一步的战略意义,为理解模型的技术定位提供了直观印象。
产品/模型亮点:四大技术突破重构视频生成范式
1. 统一模型架构:三任务一体化视频基座
LongCat-Video基于Diffusion Transformer架构,创新通过"条件帧数量"实现任务区分:
- 文生视频:无需条件帧,直接生成720p/30fps视频
- 图生视频:输入1帧参考图,保留主体属性与风格
- 视频续写:基于多帧前序内容续接,形成创作闭环
这种设计使单一模型无需额外适配即可完成从文本创意到长视频制作的全流程,大幅降低开发者使用门槛。
2. 长视频生成:原生支持5分钟连贯输出
LongCat-Video依托视频续写任务预训练,模型可稳定输出5分钟长视频且无质量损失。实测显示,即使处理93帧以上长序列,仍能保持跨帧一致性,打破"时长与质量不可兼得"的行业瓶颈。
如上图所示,LongCat-Video Generator网页界面提供文本生成视频(T2V)、图片生成视频(I2V)等多种模式选择。用户可直接输入文本描述或上传参考图像,模型将自动判断任务类型并生成对应视频内容。这一设计极大降低了长视频创作门槛,使普通用户也能完成专业级叙事内容生产。
3. 高效推理:三重优化实现速度跃升
针对高分辨率视频生成的计算瓶颈,LongCat-Video采用创新优化策略:
- 二阶段粗到精生成:先480p/15fps再超分至720p/30fps
- 块稀疏注意力:仅计算关键视觉块注意力,降低90%计算量
- 模型蒸馏:结合CFG与一致性模型技术,采样步骤从50步减至16步
三重优化使视频推理速度提升10.1倍,720p视频生成时间缩短至分钟级,在普通GPU集群即可实现高效部署。
4. 性能领先:多维度评测达开源SOTA
在文生视频任务中,LongCat-Video整体质量评分达3.38,超过Wan 2.2-T2V-A14B(3.35)和PixVerse-V5(3.36),尤其在文本语义理解维度表现突出。在图生视频任务中,模型在视觉质量指标上达到3.27,超过Seedance 1.0和Hailuo-02等商业模型。
这张对比柱状图展示了LongCat-Video模型与Veo3、PixVerse-V5、Wan2.2-T2V-A14B在文本对齐、视觉质量、运动质量和整体质量四个维度的性能测评对比。从图中可以看出,LongCat-Video在文本对齐和整体质量上超过开源模型Wan 2.2-T2V,在视觉质量上与商业模型Veo3基本持平,充分体现了其作为开源模型的竞争力。
行业影响:开源生态与商业应用双轮驱动
技术普惠:降低长视频创作门槛
LongCat-Video的开源将打破长视频生成技术垄断,使中小开发者和内容创作者能够:
- 低成本实现专业级视频制作
- 探索教育、营销、娱乐等垂直场景应用
- 基于开源代码二次开发定制化方案
社区反馈显示,已有开发者基于该模型实现虚拟主播实时互动、产品使用教程自动生成等创新应用,预计将催生视频创作新生态。
商业落地:美团的"世界模型"战略布局
美团技术团队表示,LongCat-Video将支撑多业务场景:
- 本地生活:自动生成商家动态展示视频
- 自动驾驶:交通场景动态预测与模拟
- 具身智能:服务机器人环境交互训练
这种"技术基座+业务场景"的双轮模式,或将成为科技企业大模型发展的典范。
快速上手:开发者部署指南
环境准备
git clone https://gitcode.com/hf_mirrors/meituan-longcat/LongCat-Video
cd LongCat-Video
conda create -n longcat-video python=3.10
conda activate longcat-video
pip install -r requirements.txt
模型下载
huggingface-cli download meituan-longcat/LongCat-Video --local-dir ./weights/LongCat-Video
任务启动
# 文生视频
torchrun run_demo_text_to_video.py --checkpoint_dir=./weights/LongCat-Video --enable_compile
# 视频续写(长视频生成)
torchrun run_demo_video_continuation.py --checkpoint_dir=./weights/LongCat-Video --enable_compile
结论/前瞻:迈向世界模型的下一步
LongCat-Video的发布仅是起点。美团团队在技术报告中指出,下一代模型将聚焦:
- 4K分辨率与60fps高帧率支持
- 物理规律建模能力增强
- 多镜头叙事与剪辑逻辑学习
行业分析师认为,随着开源生态完善和硬件成本下降,长视频生成技术有望在2026年实现移动端实时推理,届时将彻底改变内容创作产业格局。
如果觉得这篇文章对你有帮助,欢迎点赞、收藏、关注三连,下期我们将带来LongCat-Video高级应用案例解析,敬请期待!
项目地址: https://gitcode.com/hf_mirrors/meituan-longcat/LongCat-Video
GLM-5智谱 AI 正式发布 GLM-5,旨在应对复杂系统工程和长时域智能体任务。Jinja00
GLM-5-w4a8GLM-5-w4a8基于混合专家架构,专为复杂系统工程与长周期智能体任务设计。支持单/多节点部署,适配Atlas 800T A3,采用w4a8量化技术,结合vLLM推理优化,高效平衡性能与精度,助力智能应用开发Jinja00
请把这个活动推给顶尖程序员😎本次活动专为懂行的顶尖程序员量身打造,聚焦AtomGit首发开源模型的实际应用与深度测评,拒绝大众化浅层体验,邀请具备扎实技术功底、开源经验或模型测评能力的顶尖开发者,深度参与模型体验、性能测评,通过发布技术帖子、提交测评报告、上传实践项目成果等形式,挖掘模型核心价值,共建AtomGit开源模型生态,彰显顶尖程序员的技术洞察力与实践能力。00
Kimi-K2.5Kimi K2.5 是一款开源的原生多模态智能体模型,它在 Kimi-K2-Base 的基础上,通过对约 15 万亿混合视觉和文本 tokens 进行持续预训练构建而成。该模型将视觉与语言理解、高级智能体能力、即时模式与思考模式,以及对话式与智能体范式无缝融合。Python00
MiniMax-M2.5MiniMax-M2.5开源模型,经数十万复杂环境强化训练,在代码生成、工具调用、办公自动化等经济价值任务中表现卓越。SWE-Bench Verified得分80.2%,Multi-SWE-Bench达51.3%,BrowseComp获76.3%。推理速度比M2.1快37%,与Claude Opus 4.6相当,每小时仅需0.3-1美元,成本仅为同类模型1/10-1/20,为智能应用开发提供高效经济选择。【此简介由AI生成】Python00
Qwen3.5Qwen3.5 昇腾 vLLM 部署教程。Qwen3.5 是 Qwen 系列最新的旗舰多模态模型,采用 MoE(混合专家)架构,在保持强大模型能力的同时显著降低了推理成本。00- RRing-2.5-1TRing-2.5-1T:全球首个基于混合线性注意力架构的开源万亿参数思考模型。Python00


