Open-Sora项目中RuntimeError: memory format问题的分析与解决

2025-05-08 16:32:53作者：翟萌耘Ralph

问题背景

在使用Open-Sora项目进行模型推理时，部分用户遇到了"RuntimeError: memory format option is only supported by strided tensors"的错误提示。这个错误通常与PyTorch张量的内存布局格式有关，特别是在使用某些优化库如apex时容易出现。

错误原因分析

该错误的核心在于PyTorch张量的内存格式不兼容。具体来说：

内存格式冲突：PyTorch中的strided tensors(跨步张量)是默认的内存布局格式，而某些优化操作(如apex中的FusedRMSNorm)可能会尝试使用非标准的内存格式。
apex库的影响：当启用apex的layernorm优化内核时(enable_layernorm_kernel=True)，会触发使用特定的内存优化格式，可能导致与某些张量不兼容。
transformers库的兼容性问题：在transformers库的T5模型实现中(modeling_t5.py)，存在一些特定于内存格式的操作，可能与优化后的张量格式产生冲突。

解决方案

经过社区讨论和验证，目前有以下几种可行的解决方案：

方案一：禁用apex的layernorm优化

在项目配置文件中，将enable_layernorm_kernel参数设置为False：

enable_layernorm_kernel = False

这种方法简单直接，但可能会牺牲一些性能优化。

方案二：修改transformers库代码

对于更复杂的情况，可以修改transformers库中的T5模型实现文件(modeling_t5.py)，具体位置通常位于：

anaconda3/envs/opensora/lib/python3.10/site-packages/transformers/models/t5/modeling_t5.py

注释掉264-275行的相关代码段。这部分代码涉及内存格式的特殊处理，注释后可以避免格式冲突。

方案三：替换优化操作

有开发者尝试将FusedRMSNorm替换为标准的nn.LayerNorm，但需要注意：

这种替换可能导致数值不稳定，输出变为NaN
需要仔细测试替换后的模型效果

注意事项

方案组合：某些情况下需要同时应用多个方案才能解决问题，如既禁用apex优化又修改transformers代码。
性能权衡：禁用优化可能会影响推理速度，需要根据实际需求平衡稳定性和性能。
环境一致性：确保开发环境和生产环境使用相同的解决方案，避免不一致的行为。

总结

Open-Sora项目中的这个内存格式错误反映了深度学习框架底层优化与实际应用间的兼容性问题。通过理解错误本质并选择合适的解决方案，开发者可以顺利绕过这一技术障碍。建议用户根据自身环境特点选择最适合的解决方案，并在修改后充分测试模型效果。

Open-Sora

Open-Sora：为所有人实现高效视频制作

项目地址：https://gitcode.com/GitHub_Trending/op/Open-Sora

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

nop-entropy

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

349

200

pytorch

Ascend Extension for PyTorch

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理

Open-Sora项目中RuntimeError: memory format问题的分析与解决

问题背景

错误原因分析

解决方案

方案一：禁用apex的layernorm优化

方案二：修改transformers库代码

方案三：替换优化操作

注意事项

总结

热门内容推荐

最新内容推荐

项目优选

Open-Sora项目中RuntimeError: memory format问题的分析与解决

问题背景

错误原因分析

解决方案

方案一：禁用apex的layernorm优化

方案二：修改transformers库代码

方案三：替换优化操作

注意事项

总结

相关内容推荐

热门内容推荐

最新内容推荐

项目优选