OpenDiT项目对Open-Sora-Plan v1.2版本的支持分析

2025-07-06 14:47:28作者：虞亚竹Luna

OpenDiT作为视频生成领域的重要开源项目，近期针对Open-Sora-Plan v1.2版本的技术支持问题进行了深入讨论。Open-Sora-Plan v1.2版本在模型架构上做出了重大调整，从原有的空间+时间分离结构转变为统一的(THW)Transformer块设计，这一变化带来了显著的计算挑战。

在技术实现层面，Open-Sora-Plan v1.2采用了三维注意力机制，将时间(T)、高度(H)和宽度(W)三个维度的信息整合到统一的Transformer块中进行处理。这种设计虽然提高了模型的表达能力，但也带来了序列长度急剧增加的问题，导致推理成本大幅上升，这对实际应用构成了严峻挑战。

OpenDiT团队确认其PAB(高效注意力机制)技术可以扩展到这类三维注意力模型。PAB技术通过创新的注意力计算优化策略，能够有效降低长序列处理的计算开销。目前该技术已在CogVideoX等类似架构的模型上得到验证，取得了良好的效果表现。

值得注意的是，虽然Open-Sora-Plan v1.2与CogVideoX在架构上存在相似性，但OpenDiT团队表示尚未完成对该版本的完整支持。团队欢迎社区开发者参与贡献，共同推进对Open-Sora-Plan v1.2的适配工作。

从技术发展趋势来看，三维注意力机制正成为视频生成模型的重要发展方向。OpenDiT项目对这类架构的支持将为视频生成领域提供更高效的解决方案，推动相关技术的实际应用落地。

OpenDiT

VideoSys: An easy and efficient system for video generation

项目地址：https://gitcode.com/gh_mirrors/op/OpenDiT

登录后查看全文