openMVS中NCC代价函数梯度计算的系数问题分析
背景介绍
在计算机视觉和三维重建领域,归一化互相关(Normalized Cross Correlation, NCC)是一种常用的图像相似性度量方法。在开源项目openMVS中,NCC被广泛应用于表面演化(surface evolution)过程中的代价函数计算。近期有开发者在研究openMVS的源码实现时,发现NCC代价函数梯度计算中可能存在一个系数缺失的问题。
NCC代价函数基本原理
NCC是一种衡量两幅图像相似度的方法,其数学表达式为:
ZNCC = (1/n) * Σ[(A_i - μ_A)(B_i - μ_B)] / (σ_A * σ_B)
其中:
- A_i和B_i分别表示图像A和B在像素i处的强度值
- μ_A和μ_B是两幅图像的均值
- σ_A和σ_B是两幅图像的标准差
- n是参与计算的像素总数
在openMVS的表面演化过程中,NCC被用作优化目标函数,通过梯度下降法不断调整三维模型参数,使得从不同视角渲染的图像具有最大的NCC相似度。
梯度计算问题分析
在openMVS的SceneRefine.cpp文件中,NCC代价函数的梯度计算实现如下:
const Real dZNCC((Real)imageA(r,c)*invSqrtVAVB - (Real)imageB(r,c)*ZNCCinvVB + imageMeanB(r,c)*ZNCCinvVB - imageMeanA(r,c)*invSqrtVAVB);
经过仔细推导发现,该表达式缺少了一个1/n的系数。这个系数在数学推导中应当存在,因为它来自于NCC定义中的平均值计算部分。
问题影响评估
虽然这个缺失的系数不会影响优化过程的收敛性(因为它可以被吸收到学习率中),但从数学严谨性的角度来看,完整的梯度表达式应当包含这个系数。在openMVS的后续代码中,确实在另一个位置(第888行)正确地包含了这个系数。
技术讨论延伸
这个发现引发了关于表面演化和三维重建方法的更广泛讨论。特别是关于如何将基于网格的表面演化与高斯泼溅(Gaussian Splatting)技术相结合的探索:
-
表面表示方法:传统的网格表示与新兴的高斯表示各有优势,如何结合两者的优点是一个研究方向。
-
拓扑处理:在优化过程中,网格拓扑结构的变化需要特殊处理,而高斯表示在这方面更具灵活性。
-
渲染与几何一致性:高质量的渲染结果不一定对应精确的几何结构,如何设计既能保证渲染质量又能优化几何精度的表示方法是关键。
结论与建议
openMVS中NCC梯度计算的系数问题虽然不影响实际优化效果,但从数学完整性的角度建议进行修正。这一发现也启发我们思考三维重建领域中不同表示方法的融合可能性。未来的工作可以探索:
- 将网格的显式表示与高斯泼溅的隐式表示相结合
- 开发支持拓扑变化的网格优化算法
- 研究基于测地距离的高斯分布定义方法
这些方向有望推动三维重建技术向更高精度、更高效能的方向发展。
GLM-5智谱 AI 正式发布 GLM-5,旨在应对复杂系统工程和长时域智能体任务。Jinja00
GLM-5-w4a8GLM-5-w4a8基于混合专家架构,专为复杂系统工程与长周期智能体任务设计。支持单/多节点部署,适配Atlas 800T A3,采用w4a8量化技术,结合vLLM推理优化,高效平衡性能与精度,助力智能应用开发Jinja00
请把这个活动推给顶尖程序员😎本次活动专为懂行的顶尖程序员量身打造,聚焦AtomGit首发开源模型的实际应用与深度测评,拒绝大众化浅层体验,邀请具备扎实技术功底、开源经验或模型测评能力的顶尖开发者,深度参与模型体验、性能测评,通过发布技术帖子、提交测评报告、上传实践项目成果等形式,挖掘模型核心价值,共建AtomGit开源模型生态,彰显顶尖程序员的技术洞察力与实践能力。00
Kimi-K2.5Kimi K2.5 是一款开源的原生多模态智能体模型,它在 Kimi-K2-Base 的基础上,通过对约 15 万亿混合视觉和文本 tokens 进行持续预训练构建而成。该模型将视觉与语言理解、高级智能体能力、即时模式与思考模式,以及对话式与智能体范式无缝融合。Python00
MiniMax-M2.5MiniMax-M2.5开源模型,经数十万复杂环境强化训练,在代码生成、工具调用、办公自动化等经济价值任务中表现卓越。SWE-Bench Verified得分80.2%,Multi-SWE-Bench达51.3%,BrowseComp获76.3%。推理速度比M2.1快37%,与Claude Opus 4.6相当,每小时仅需0.3-1美元,成本仅为同类模型1/10-1/20,为智能应用开发提供高效经济选择。【此简介由AI生成】Python00
Qwen3.5Qwen3.5 昇腾 vLLM 部署教程。Qwen3.5 是 Qwen 系列最新的旗舰多模态模型,采用 MoE(混合专家)架构,在保持强大模型能力的同时显著降低了推理成本。00- RRing-2.5-1TRing-2.5-1T:全球首个基于混合线性注意力架构的开源万亿参数思考模型。Python00