阿里云开源动作生成新模型Wan2.2-Animate 革新短视频创作与动漫制作流程
2025年9月19日,阿里云旗下人工智能实验室正式对外发布通义万相系列的重大更新——动作生成模型Wan2.2-Animate,并宣布该模型完全开源。这款具备突破性技术的AI模型能够精准驱动静态人物肖像、动漫角色乃至动物图片生成动态视频,为短视频内容创作、舞蹈教学模板开发、二次元动漫制作等多个领域带来生产力革命。
作为通义万相团队在动作生成领域的集大成之作,Wan2.2-Animate是基于此前广受好评的Animate Anyone模型进行深度重构升级的成果。通过全新的网络架构设计,该模型在角色动态一致性、视频生成清晰度等核心指标上实现跨越式提升,同时创新性地融合了动作模仿与角色扮演两大核心功能模式。在动作模仿模式下,用户仅需上传一张目标角色图片和一段包含动作参考的视频素材,模型便能智能提取视频中的肢体运动轨迹与面部微表情特征,将其完美迁移至静态图片角色,使原本静止的图像获得栩栩如生的动态表现力。而在角色扮演模式中,系统可在完整保留原始视频场景环境、动作节奏及人物表情的基础上,将视频主体角色替换为用户指定的图片角色,实现堪称"数字分身"的沉浸式视觉体验。
为支撑如此复杂的动作生成能力,通义万相团队构建了业界首个覆盖多模态交互的大规模人物视频训练数据集。该数据集包含超过10万段高清视频素材,系统梳理了人类日常说话、情感表达时的面部肌肉运动规律,以及不同场景下的肢体动作特征。基于通义万相已有的图生视频基础模型,研发团队进行了针对性的后训练优化,创新性地将角色身份信息、场景环境参数和动作控制信号统一编码为标准化表示格式,从而实现单一模型架构对两种推理模式的无缝支持。在技术实现层面,模型采用双通道特征处理机制:对于身体运动控制,通过提取空间对齐的骨骼关键点信号进行精准驱动;针对面部表情复刻,则创新性地引入隐式特征编码技术,从源图像中提取深层表情特征向量。配合自主研发的动作重定向神经模块,实现从参考视频到目标角色的动作参数精确映射。特别在角色替换场景中,团队专门设计了独立的光照融合LoRA(Low-Rank Adaptation)网络,通过实时分析场景光源方向与强度,自动调整替换角色的光影效果,确保生成角色与原始环境的光照一致性达到像素级融合。
第三方权威测评机构的实测数据显示,Wan2.2-Animate在多项关键技术指标上全面超越现有开源方案。在视频生成质量评估中,该模型在PSNR(峰值信噪比)、SSIM(结构相似性)等客观指标上较StableAnimator提升37%,较LivePortrait提高29%;在主体一致性测试中,连续500帧视频的角色身份保持率达到98.7%,显著降低了传统模型常见的"面部漂移"问题。更值得关注的是,在包含1000名专业视频创作者参与的主观评测中,Wan2.2-Animate获得的综合评分不仅超越所有开源竞品,甚至超过了以Runway Act-two为代表的商业闭源模型,标志着国产开源AI模型在动作生成领域已跻身全球第一梯队。
GGUF(Generalized Gretel Unification Format)作为当前大型语言模型部署的优选格式,其核心优势在于通过优化数据存储结构提升模型加载速度,同时增强跨平台兼容性。对于需要在本地设备离线运行大模型的应用场景,如嵌入式智能终端、医疗隐私保护系统等,GGUF格式能显著降低硬件资源占用。此次开源的Wan2.2-Animate模型特别提供GGUF格式的量化版本(Wan2.2-Animate-14B-Q5_0.gguf),开发者可通过Gitcode平台获取该模型文件(仓库地址:https://gitcode.com/hf_mirrors/Wan-AI/Wan2.2-Animate-14B),实现从云端到边缘设备的全场景部署。
Wan2.2-Animate的技术突破为内容创作行业带来多重价值。在短视频生产领域,创作者可快速将静态人设图转化为动态舞蹈视频,大幅降低MV制作门槛;教育机构能够利用角色替换功能开发个性化教学内容,让历史人物"复活"讲解知识点;游戏开发者则可通过动作模仿功能快速生成NPC动画素材,将传统需要数周的动画制作流程压缩至小时级。目前普通用户可直接通过通义万相官方网站体验在线版Wan2.2-Animate,专业开发者则可通过API接口或本地部署方式深度集成该模型能力。
Kimi-K2.5Kimi K2.5 是一款开源的原生多模态智能体模型,它在 Kimi-K2-Base 的基础上,通过对约 15 万亿混合视觉和文本 tokens 进行持续预训练构建而成。该模型将视觉与语言理解、高级智能体能力、即时模式与思考模式,以及对话式与智能体范式无缝融合。Python00- QQwen3-Coder-Next2026年2月4日,正式发布的Qwen3-Coder-Next,一款专为编码智能体和本地开发场景设计的开源语言模型。Python00
xw-cli实现国产算力大模型零门槛部署,一键跑通 Qwen、GLM-4.7、Minimax-2.1、DeepSeek-OCR 等模型Go06
PaddleOCR-VL-1.5PaddleOCR-VL-1.5 是 PaddleOCR-VL 的新一代进阶模型,在 OmniDocBench v1.5 上实现了 94.5% 的全新 state-of-the-art 准确率。 为了严格评估模型在真实物理畸变下的鲁棒性——包括扫描伪影、倾斜、扭曲、屏幕拍摄和光照变化——我们提出了 Real5-OmniDocBench 基准测试集。实验结果表明,该增强模型在新构建的基准测试集上达到了 SOTA 性能。此外,我们通过整合印章识别和文本检测识别(text spotting)任务扩展了模型的能力,同时保持 0.9B 的超紧凑 VLM 规模,具备高效率特性。Python00
KuiklyUI基于KMP技术的高性能、全平台开发框架,具备统一代码库、极致易用性和动态灵活性。 Provide a high-performance, full-platform development framework with unified codebase, ultimate ease of use, and dynamic flexibility. 注意:本仓库为Github仓库镜像,PR或Issue请移步至Github发起,感谢支持!Kotlin08
VLOOKVLOOK™ 是优雅好用的 Typora/Markdown 主题包和增强插件。 VLOOK™ is an elegant and practical THEME PACKAGE × ENHANCEMENT PLUGIN for Typora/Markdown.Less00