O3DE引擎中DX12渲染后端切换关卡冻结问题分析

2025-05-28 07:02:14作者：韦蓉瑛

Open 3D Engine (O3DE) is an Apache 2.0-licensed multi-platform 3D engine that enables developers and content creators to build AAA games, cinema-quality 3D worlds, and high-fidelity simulations without any fees or commercial obligations.

项目地址：https://gitcode.com/gh_mirrors/o3/o3de

问题背景

在O3DE游戏引擎的开发过程中，开发人员发现当使用DX12作为渲染后端时，编辑器在切换关卡时会出现冻结现象。这个问题在Vulkan渲染后端下不会出现，表明这是一个特定于DX12实现的并发处理问题。

问题现象

当开发者在编辑器中进行以下操作时会出现问题：

启动编辑器并加载任意关卡
尝试加载另一个关卡
编辑器主线程冻结

通过调试发现，主线程卡在DX12的Fence等待操作上，具体是在Fence.cpp文件的WaitForSingleObject调用处。

技术分析

死锁原因

深入分析后发现，这是一个典型的死锁问题，涉及两个关键线程：

主线程：负责关卡加载和资源初始化
次级拷贝队列线程：负责异步资源上传

死锁发生的具体流程如下：

主线程在加载新关卡时，通过ImageBasedLightFeatureProcessor::GetInstanceForImage方法请求创建一个流式图像实例
该方法调用StreamingImage::FindOrCreate，获取了InstanceDatabase<StreamingImage>的互斥锁
在持有该锁的情况下，主线程又通过DX12的AsyncUploadQueue提交了上传任务
上传任务被放入次级拷贝队列的工作队列中
主线程等待上传任务完成，但此时次级拷贝队列线程尝试处理队列中的命令
某些命令需要释放流式图像资源，这又需要获取InstanceDatabase的互斥锁
由于主线程已经持有该锁，次级线程被阻塞
主线程等待次级线程完成上传，次级线程等待主线程释放锁，形成死锁

Vulkan与DX12的差异

有趣的是，这个问题在Vulkan后端不会出现。经过分析发现，这是因为在Vulkan实现中，由于BindlessDescriptorPool的存在，流式图像的引用计数多了一个，使得FindOrCreate操作能够提前返回而不需要获取互斥锁。

换句话说，Vulkan能够正常工作纯属巧合，实际上两种后端实现都存在潜在的并发问题。

解决方案

修复这个问题的核心思路是重构资源加载和异步上传的交互逻辑，确保不会在持有资源数据库锁的情况下等待异步操作完成。具体措施包括：

对RHI::Object的名称设置和获取操作添加互斥保护，防止并发访问
重新设计资源加载流程，避免在持有锁的情况下触发异步操作
确保所有资源释放操作不会与资源创建操作产生锁竞争

性能影响

需要注意的是，这个修复方案虽然解决了死锁问题，但在Vulkan后端会导致关卡加载速度明显变慢，特别是在处理大型关卡时。这是因为新增的互斥锁保护增加了线程同步的开销。

这个问题需要在后续的图形音频特别兴趣小组会议中进一步讨论，以寻找更优的解决方案，既能保证线程安全，又能维持良好的性能。

经验教训

这个案例给我们几个重要的启示：

在资源管理系统设计中，必须谨慎处理锁的粒度和持有时间
异步操作和同步锁的结合使用需要特别小心，容易导致死锁
不同图形API的实现差异可能导致表面上"工作正常"的假象，实际隐藏着潜在问题
线程安全问题的修复往往需要在正确性和性能之间做出权衡

通过这个问题的分析和解决，O3DE引擎的资源管理系统得到了改进，为未来的多线程渲染优化打下了更坚实的基础。

Open 3D Engine (O3DE) is an Apache 2.0-licensed multi-platform 3D engine that enables developers and content creators to build AAA games, cinema-quality 3D worlds, and high-fidelity simulations without any fees or commercial obligations.

项目地址：https://gitcode.com/gh_mirrors/o3/o3de

登录后查看全文

项目优选

收起

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

deepin linux kernel

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

Cangjie-Examples

本仓将收集和展示高质量的仓颉示例代码，欢迎大家投稿，让全世界看到您的妙趣设计，也让更多人通过您的编码理解和喜爱仓颉语言。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。