COLMAP/Glomap项目中基础矩阵计算的潜在问题分析
引言
在多视图几何计算中,基础矩阵(Fundamental Matrix)和本质矩阵(Essential Matrix)是两个核心概念。它们在计算机视觉的三维重建、相机姿态估计等任务中扮演着重要角色。本文针对COLMAP/Glomap项目中的一个潜在计算问题进行分析,探讨基础矩阵的正确推导方式。
基础矩阵与本质矩阵的关系
基础矩阵F和本质矩阵E之间存在明确的数学关系。本质矩阵描述了两个相机之间的纯几何关系,而基础矩阵则考虑了相机的内参。它们之间的转换关系可以表示为:
F = K₂⁻ᵀ * E * K₁⁻¹
其中K₁和K₂分别是两个相机的内参矩阵。这个公式的物理意义是:本质矩阵E在归一化坐标系下描述了两视图关系,而基础矩阵F则将这种关系转换到了像素坐标系。
问题发现
在Glomap项目的实现中,FundamentalFromMotionAndCameras函数负责从相机运动和相机内参计算基础矩阵。当前实现为:
F = K₁⁻ᵀ * E * K₂⁻¹
这与理论推导的公式顺序相反。当pose参数表示相机2相对于相机1的变换(T_cam2_from_cam1)时,正确的计算顺序应该是:
F = K₂⁻ᵀ * E * K₁⁻¹
数学推导验证
让我们从基本原理出发验证这一关系:
-
对于一对匹配点x₁和x₂,在归一化坐标系下有: x₂ᵀ * E * x₁ = 0
-
像素坐标与归一化坐标的关系为: x₁ = K₁ * X₁ x₂ = K₂ * X₂ 其中X₁和X₂是归一化坐标
-
将2代入1得: (K₂ * X₂)ᵀ * F * (K₁ * X₁) = 0 => X₂ᵀ * (K₂ᵀ * F * K₁) * X₁ = 0
-
对比1和3可得: E = K₂ᵀ * F * K₁ => F = K₂⁻ᵀ * E * K₁⁻¹
这一推导清晰地展示了基础矩阵的正确计算方式。
影响分析
如果基础矩阵计算顺序错误,会导致:
- 极线约束计算不准确
- 三角化结果偏差
- 后续的相机姿态估计和三维重建精度下降
特别是在大基线或广角相机情况下,这种误差会被放大。
正确实现建议
基于上述分析,建议将函数实现修改为:
void FundamentalFromMotionAndCameras(const Camera& camera1,
const Camera& camera2,
const Rigid3d& pose,
Eigen::Matrix3d* F) {
Eigen::Matrix3d E;
EssentialFromMotion(pose, &E);
*F = camera2.GetK().transpose().inverse() * E * camera1.GetK().inverse();
}
结论
在多视图几何计算中,数学公式的严格实现至关重要。本文分析了Glomap项目中基础矩阵计算的潜在问题,通过数学推导验证了正确的计算顺序,并讨论了错误实现可能带来的影响。正确的矩阵顺序保证了极线几何关系的准确性,是后续三维重建任务的基础。
AutoGLM-Phone-9BAutoGLM-Phone-9B是基于AutoGLM构建的移动智能助手框架,依托多模态感知理解手机屏幕并执行自动化操作。Jinja00
Kimi-K2-ThinkingKimi K2 Thinking 是最新、性能最强的开源思维模型。从 Kimi K2 开始,我们将其打造为能够逐步推理并动态调用工具的思维智能体。通过显著提升多步推理深度,并在 200–300 次连续调用中保持稳定的工具使用能力,它在 Humanity's Last Exam (HLE)、BrowseComp 等基准测试中树立了新的技术标杆。同时,K2 Thinking 是原生 INT4 量化模型,具备 256k 上下文窗口,实现了推理延迟和 GPU 内存占用的无损降低。Python00
GLM-4.6V-FP8GLM-4.6V-FP8是GLM-V系列开源模型,支持128K上下文窗口,融合原生多模态函数调用能力,实现从视觉感知到执行的闭环。具备文档理解、图文生成、前端重构等功能,适用于云集群与本地部署,在同类参数规模中视觉理解性能领先。Jinja00
HunyuanOCRHunyuanOCR 是基于混元原生多模态架构打造的领先端到端 OCR 专家级视觉语言模型。它采用仅 10 亿参数的轻量化设计,在业界多项基准测试中取得了当前最佳性能。该模型不仅精通复杂多语言文档解析,还在文本检测与识别、开放域信息抽取、视频字幕提取及图片翻译等实际应用场景中表现卓越。00
GLM-ASR-Nano-2512GLM-ASR-Nano-2512 是一款稳健的开源语音识别模型,参数规模为 15 亿。该模型专为应对真实场景的复杂性而设计,在保持紧凑体量的同时,多项基准测试表现优于 OpenAI Whisper V3。Python00
GLM-TTSGLM-TTS 是一款基于大语言模型的高质量文本转语音(TTS)合成系统,支持零样本语音克隆和流式推理。该系统采用两阶段架构,结合了用于语音 token 生成的大语言模型(LLM)和用于波形合成的流匹配(Flow Matching)模型。 通过引入多奖励强化学习框架,GLM-TTS 显著提升了合成语音的表现力,相比传统 TTS 系统实现了更自然的情感控制。Python00
Spark-Formalizer-X1-7BSpark-Formalizer 是由科大讯飞团队开发的专用大型语言模型,专注于数学自动形式化任务。该模型擅长将自然语言数学问题转化为精确的 Lean4 形式化语句,在形式化语句生成方面达到了业界领先水平。Python00