NVIDIA Omniverse Orbit项目中PyTorch性能分析器报错问题解析

2025-06-24 01:20:21作者：丁柯新Fawn

问题背景

在使用NVIDIA Omniverse Orbit项目进行仿真开发时，开发者可能会遇到PyTorch性能分析器(Profiler)的一个特定错误。该错误表现为当尝试使用PyTorch的Profiler进行性能分析时，程序会抛出"RuntimeError: !stack.empty() INTERNAL ASSERT FAILED"异常，提示Python replay stack为空。

错误现象

错误信息完整显示为：

RuntimeError: !stack.empty() INTERNAL ASSERT FAILED at "../torch/csrc/autograd/profiler_python.cpp":969, please report a bug to PyTorch. Python replay stack is empty.

这个错误通常发生在使用torch.profiler.profile上下文管理器时，特别是在尝试停止性能分析器的时候。错误表明PyTorch内部的状态跟踪机制出现了问题，无法正确记录Python调用栈。

问题原因分析

经过对错误代码和PyTorch源码的分析，这个问题可能由以下几个因素导致：

PyTorch版本兼容性问题：Omniverse环境自带的PyTorch版本可能与用户代码期望的版本存在差异。
多线程/异步执行冲突：Omniverse的仿真循环可能涉及复杂的线程调度，与PyTorch Profiler的栈跟踪机制产生冲突。
Profiler配置不当：特别是当启用了with_stack=True选项时，Profiler需要维护额外的调用栈信息，在复杂环境下更容易出现问题。

解决方案

针对这一问题，目前有以下几种可行的解决方案：

方案一：禁用调用栈跟踪

最简单的解决方法是修改Profiler配置，将with_stack参数设为False：

with torch.profiler.profile(
    activities=[torch.profiler.ProfilerActivity.CPU, torch.profiler.ProfilerActivity.CUDA],
    record_shapes=True,
    with_stack=False,  # 关键修改
    on_trace_ready=save_as_chrome_trace,
) as prof:
    # 仿真代码

这种方法的缺点是会丢失Python侧的调用栈信息，仅保留算子级别的性能数据。

方案二：检查相机配置

根据项目文档，确保TiledCamera的配置正确，特别是spawn参数不应设为None：

tiled_camera = TiledCameraCfg(
    prim_path="{ENV_REGEX_NS}/Robot/base/front_cam",
    update_period=0.1,
    height=480,
    width=640,
    data_types=["rgb", "distance_to_image_plane"],
    spawn=sim_utils.PinholeCameraCfg(  # 提供有效的相机配置
        focal_length=24.0, 
        focus_distance=400.0, 
        horizontal_aperture=20.955, 
        clipping_range=(0.1, 1.0e5)
    ),
    offset=TiledCameraCfg.OffsetCfg(pos=(0.510, 0.0, 0.015), rot=(0.5, -0.5, 0.5, -0.5), convention="ros"),
)

方案三：升级PyTorch版本

如果环境允许，可以尝试使用更高版本的PyTorch，可能已经修复了相关的问题。

深入技术细节

PyTorch Profiler的工作原理是通过拦截Python调用和CUDA操作来构建性能分析数据。当启用with_stack=True时，Profiler会维护一个Python调用栈的副本，用于后续分析。在Omniverse这种复杂的仿真环境中，由于存在多个线程和异步操作，这个调用栈可能会被意外清空，导致断言失败。