Smoothly-VSLAM项目解析：三维空间刚体运动的数学描述

2025-06-04 23:04:04作者：殷蕙予

引言

在视觉SLAM（Simultaneous Localization and Mapping）系统中，准确描述三维空间中刚体的运动是核心问题之一。本文将深入探讨三维空间刚体运动的数学表示方法，这是Smoothly-VSLAM项目中基础而关键的部分。

1. 坐标系基础概念

1.1 世界坐标系与里程计坐标系

在SLAM系统中，我们通常使用两种主要坐标系：

世界坐标系（World Frame）：固定不变的全局参考系，通常选择系统启动时的初始位置和方向作为世界坐标系的原点和基准方向。
里程计坐标系（Odometry Frame）：随传感器移动的局部坐标系，在视觉SLAM中通常指相机坐标系。

这两种坐标系的关系构成了SLAM系统定位的基础。通过持续跟踪里程计坐标系相对于世界坐标系的变换，我们就能实现定位功能。

1.2 坐标系变换与刚体运动的区别

虽然坐标系变换和刚体运动都涉及坐标系的转换，但存在本质区别：

坐标系变换：观察视角变化，物体本身不动
刚体运动：物体本身在空间中移动和旋转

在SLAM中，我们更关注刚体运动，即传感器在空间中的实际运动。

2. 欧式变换及其表示

2.1 欧式变换的定义

三维空间中的刚体运动由平移和旋转组成，数学上称为欧式变换。它具有6个自由度：3个平移自由度和3个旋转自由度。

2.2 变换矩阵表示法

为了简洁表示欧式变换，我们使用4×4的齐次变换矩阵：

T = \begin{bmatrix} R & t \\ 0^T & 1 \end{bmatrix}

其中：

$R$ 是3×3旋转矩阵
$t$ 是3×1平移向量

这种表示法的优势在于可以将连续的变换表示为矩阵乘法：

T_2 = T_1 \Delta T

其中 $\Delta T$ 表示当前坐标系相对于前一坐标系的局部变换。

3. 旋转的多种表示方法

旋转在三维空间中的表示有多种方式，各有优缺点：

3.1 旋转矩阵

旋转矩阵是3×3的正交矩阵，满足 $R^{T} R = I$ 且 $\det(R)=1$ 。

优点：

直观表示坐标系之间的变换关系
易于进行向量变换计算

缺点：

9个参数表示3个自由度，存在冗余
在优化过程中需要处理正交约束

3.2 四元数

四元数使用4个参数表示旋转，形式为 $q = w + x i + y j + z k$ 。

优点：

紧凑表示（4个参数）
无奇异性问题
插值运算方便

缺点：

不够直观
运算规则较复杂

四元数在SLAM系统中广泛应用，特别是在需要频繁进行旋转插值或优化的场景。

3.3 欧拉角

欧拉角使用三个绕坐标轴的旋转角度表示方向，常见的有"偏航-俯仰-滚转"(yaw-pitch-roll)。

优点：

非常直观，易于理解
参数最少（3个）

缺点：

存在万向节死锁问题
旋转顺序不唯一，容易混淆

3.4 旋转向量（轴角表示）

旋转向量用一个三维向量表示旋转，方向代表旋转轴，长度代表旋转角度。

优点：

紧凑表示（3个参数）
无冗余

缺点：

在角度为0时无法定义旋转轴
运算不如四元数方便

4. 实际应用示例

以H3.6M三维人体姿态数据集为例，我们可以看到这些表示方法在实际中的应用：

# 相机外参示例（使用四元数表示旋转）
{
    'orientation': [0.140705, -0.150070, -0.755240, 0.622328],  # 四元数
    'translation': [1841.107, 4955.284, 1563.445]  # 平移向量
}

在实际SLAM系统中，通常会根据具体需求选择最适合的表示方法。例如：

存储时使用四元数
显示时转换为欧拉角
优化时可能使用旋转向量

5. 总结与思考

理解三维空间刚体运动的表示方法是SLAM系统的基础。不同的表示方法各有优劣，在实际系统中往往会根据需求进行转换和组合使用。

思考题：

为什么在SLAM优化中通常不使用欧拉角作为旋转的表示？
四元数为什么能避免万向节死锁问题？
在什么情况下旋转向量表示法会失效？

通过深入理解这些基础概念，我们才能更好地设计和实现鲁棒的SLAM系统。

登录后查看全文

项目优选

收起

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

455

437

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。