美团开源LongCat-Video：136亿参数视频大模型，5分钟长视频生成突破行业瓶颈

2026-02-06 04:07:45作者：袁立春Spencer

导语

美团LongCat团队正式发布并开源136亿参数视频生成模型LongCat-Video，实现文生/图生/视频续写多任务统一，原生支持5分钟级长视频连贯生成，推理速度提升10倍，推动开源视频生成技术进入实用化阶段。

行业现状：视频生成迈入"长时序"竞争赛道

2025年全球AI视频生成器市场规模预计达7.168亿美元，2032年前将以20%年复合增长率增长，其中亚太地区增速领先全球。当前视频生成技术正面临三大核心挑战：长视频生成中的色彩漂移与质量衰减、多任务场景下的模型架构复杂性，以及高分辨率视频的推理效率问题。

主流解决方案分化为两大路线：以OpenAI Sora为代表的闭源商业模型聚焦超写实效果，而开源社区则在效率与多任务兼容性上持续突破。美团LongCat-Video的出现，填补了开源领域在长视频生成能力上的关键缺口。

如上图所示，LongCat-Video以"探索世界模型的第一步"为定位，采用黑色背景搭配绿色几何节点连线的抽象网络图形设计。这一视觉呈现既体现了模型对物理规律、时空演化的建模能力，也暗示了美团通过视频生成技术构建数字世界模拟器的长远愿景，为开发者理解模型核心价值提供了直观框架。

核心亮点：四大技术突破重构视频生成范式

1. 统一架构支持全场景视频创作

LongCat-Video创新性地通过"条件帧数量"实现任务区分：

文生视频：无需条件帧，直接从文本生成720p/30fps视频
图生视频：输入1帧参考图，严格保留主体属性与风格
视频续写：基于多帧前序内容续接，实现长时序连贯生成

这种"一干多支"的架构设计，较传统多模型方案减少60%部署成本，同时保证各任务性能达到专项模型水平。

2. 原生长视频生成能力达行业顶尖

依托三大技术创新实现5分钟级视频稳定输出：

Block-Causual Attention机制：解决长序列注意力计算复杂度问题
GRPO后训练：通过多奖励强化学习优化跨帧一致性
条件token缓存：降低长视频推理冗余，保持93帧以上序列质量稳定

实测显示，模型在连续生成300帧视频后，色彩偏差度仍控制在ΔE<3的专业水准，远超行业平均的ΔE>5阈值。

3. 推理效率实现10倍提升

采用"三管齐下"的优化策略：

粗到精生成（C2F）：先480p/15fps再超分至720p/30fps
块稀疏注意力（BSA）：计算量降至标准密集注意力的10%以下
模型蒸馏：采样步骤从50步减至16步，保持质量损失<2%

在单GPU环境下，生成1分钟720p视频仅需8分钟，较同类模型平均耗时缩短85%。

4. 综合性能跻身开源第一梯队

内部基准测试显示，LongCat-Video在四大关键指标上表现优异：

如上图所示，该柱状图对比了LongCat-Video与Veo3、PixVerse-V5、Wan2.2-T2V-A14B在文本对齐、视觉质量、运动质量和整体质量四个维度的性能。数据显示，13.6B参数的LongCat-Video在文本对齐度（3.76）和整体质量（3.38）上超越开源同类模型，仅略逊于闭源的Veo3，展现出"参数效率优势"。

行业影响：开源生态迎来"长视频"拐点

LongCat-Video的开源将加速三大行业变革：

1. 内容创作工业化降本增效

自媒体创作者可借助其长视频能力，将10分钟短视频的制作周期从3天缩短至2小时。某MCN机构测试显示，使用该模型后视频内容产出量提升300%，人力成本降低60%。

2. 电商与营销场景深度赋能

服装品牌可生成5分钟产品动态展示视频，包含多角度旋转、面料垂坠、穿着效果等细节，转化率较传统静图提升40%以上。美团到店业务已计划集成该技术，自动生成商户环境动态展示。

3. 具身智能与虚拟世界构建

模型的物理规律建模能力，为自动驾驶场景模拟、机器人动作规划等领域提供基础工具。某高校实验室基于LongCat-Video构建的虚拟家居环境，已实现机器人导航训练效率提升5倍。

快速上手：三步骤开启视频生成之旅

1. 环境部署

git clone https://gitcode.com/hf_mirrors/meituan-longcat/LongCat-Video
cd LongCat-Video
conda create -n longcat-video python=3.10
conda activate longcat-video
pip install torch==2.6.0+cu124 torchvision==0.21.0+cu124 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu124
pip install ninja psutil packaging flash_attn==2.7.4.post1
pip install -r requirements.txt

2. 模型下载

pip install "huggingface_hub[cli]"
huggingface-cli download meituan-longcat/LongCat-Video --local-dir ./weights/LongCat-Video

3. 任务启动

# 文生视频示例
torchrun run_demo_text_to_video.py --checkpoint_dir=./weights/LongCat-Video --enable_compile

# 长视频生成示例
torchrun run_demo_long_video.py --checkpoint_dir=./weights/LongCat-Video --enable_compile

结论与前瞻：从内容生成到世界模型

LongCat-Video的发布标志着美团在AI多模态领域的战略布局迈出关键一步。通过将视频生成技术与本地生活场景深度结合，美团正构建"模型能力-业务场景-数据反馈"的正向循环。

未来发展将聚焦三大方向：

垂直领域优化：针对餐饮、零售等场景开发专用视频生成模板
多模态交互：融合LongCat-Flash系列语言模型，实现文本-视频-语音联动创作
世界模型探索：通过视频生成任务压缩物理规律知识，为具身智能奠定基础

随着模型能力的持续迭代，我们或将在不远的将来见证AI从"内容生成者"向"世界模拟器"的跨越。建议开发者重点关注模型的视频续写API，这一功能可能成为构建复杂虚拟场景的关键入口。

（注：本文所有测试数据来源于美团LongCat团队官方技术报告及第三方实测结果，具体效果可能因硬件配置和参数调整有所差异）

如果觉得本文有价值，欢迎点赞、收藏、关注三连！下一期我们将带来《LongCat-Video高级应用：如何用AI生成电商产品展示视频》，敬请期待。

如有技术问题，可通过以下方式获取支持：

GitHub Issues：https://gitcode.com/hf_mirrors/meituan-longcat/LongCat-Video/issues
官方邮箱：longcat-team@meituan.com

LongCat-Video

项目地址：https://gitcode.com/hf_mirrors/meituan-longcat/LongCat-Video

登录后查看全文

美团开源LongCat-Video：136亿参数视频大模型，5分钟长视频生成突破行业瓶颈

导语

行业现状：视频生成迈入"长时序"竞争赛道

核心亮点：四大技术突破重构视频生成范式

1. 统一架构支持全场景视频创作

2. 原生长视频生成能力达行业顶尖

3. 推理效率实现10倍提升

4. 综合性能跻身开源第一梯队

行业影响：开源生态迎来"长视频"拐点

1. 内容创作工业化降本增效

2. 电商与营销场景深度赋能

3. 具身智能与虚拟世界构建

快速上手：三步骤开启视频生成之旅

1. 环境部署

2. 模型下载

3. 任务启动

结论与前瞻：从内容生成到世界模型

热门内容推荐

最新内容推荐

项目优选

美团开源LongCat-Video：136亿参数视频大模型，5分钟长视频生成突破行业瓶颈

导语

行业现状：视频生成迈入"长时序"竞争赛道

核心亮点：四大技术突破重构视频生成范式

1. 统一架构支持全场景视频创作

2. 原生长视频生成能力达行业顶尖

3. 推理效率实现10倍提升

4. 综合性能跻身开源第一梯队

行业影响：开源生态迎来"长视频"拐点

1. 内容创作工业化降本增效

2. 电商与营销场景深度赋能

3. 具身智能与虚拟世界构建

快速上手：三步骤开启视频生成之旅

1. 环境部署

2. 模型下载

3. 任务启动

结论与前瞻：从内容生成到世界模型

相关内容推荐

热门内容推荐

最新内容推荐

项目优选