Meshroom中相机旋转与平移矩阵的坐标系转换问题解析

2025-05-19 02:47:11作者：齐添朝

概述

在计算机视觉和计算机图形学领域，坐标系转换是一个常见但容易混淆的问题。本文将以AliceVision/Meshroom项目为例，深入分析不同版本中相机旋转与平移矩阵的坐标系差异，以及如何正确进行坐标系转换以实现准确的2D渲染。

坐标系基础

在3D重建和渲染过程中，主要涉及两种坐标系系统：

计算机视觉坐标系：
- X轴向右
- Z轴向后（指向场景）
- Y轴向下
OpenGL图形学坐标系：
- X轴向右
- Z轴向前（指向观察者）
- Y轴向上

这两种坐标系的差异导致了在将计算机视觉结果应用于图形渲染时需要特别注意坐标系转换。

Meshroom版本差异

Meshroom 2021和2023版本在处理坐标系时存在重要区别：

Meshroom 2021：
- 输出的.obj文件使用计算机视觉坐标系
- 相机变换矩阵也采用计算机视觉坐标系
Meshroom 2023：
- 输出的.obj文件使用OpenGL坐标系
- 相机变换矩阵仍采用计算机视觉坐标系

这种变化意味着在使用不同版本Meshroom输出结果时，需要采用不同的转换方法。

转换矩阵详解

基础转换矩阵

从计算机视觉坐标系(av)到OpenGL坐标系(gl)的转换矩阵为：

gl_T_av = [1  0  0  0
           0 -1  0  0
           0  0 -1  0
           0  0  0  1]

这个矩阵实际上表示绕X轴旋转180度。

相机变换矩阵

Meshroom输出的相机变换矩阵avcamera_T_avworld包含：

旋转矩阵avcamera_R_avworld（列主序）
相机中心位置avworld_t_avcamera

完整的齐次变换矩阵为：

avcamera_T_avworld = [avcamera_R_avworld  -avcamera_R_avworld*avworld_t_avcamera
                      0                    1]

版本差异处理

对于不同版本Meshroom输出，处理方式不同：

Meshroom 2021：
- 只需在渲染前对相机变换矩阵应用gl_T_av转换
Meshroom 2023：
- 需要对相机变换矩阵进行双向转换
- 转换公式：GLcamera_T_GLworld = gl_T_av × avcamera_T_avworld × gl_T_av

实际应用示例

在Python中使用pyrender进行渲染时，正确的转换方法如下：

def render(pmesh, f, cx, cy, rotmat, tvec):
    # 坐标系转换矩阵
    Rx = np.array([[1, 0, 0],
                   [0, -1, 0],
                   [0, 0, -1]])
    
    # 对于Meshroom 2023的输出
    # 需要双向转换
    real_pose = np.eye(4, dtype=float)
    real_pose[:3, :3] = Rx @ rotmat @ Rx  # 注意这里的双向转换
    real_pose[:3, 3] = Rx @ tvec
    
    real_pose = np.linalg.inv(real_pose)
    
    # 其余渲染代码...