Kani验证工具中`size_of_val`计算溢出问题的分析与修复
在Rust程序验证工具Kani中,我们发现了一个关于size_of_val函数计算过程中可能忽略整数溢出的安全性问题。这个问题涉及到Rust核心的内存安全机制,值得深入探讨。
问题背景
Rust语言提供了size_of_val函数用于在运行时获取值的字节大小。当处理动态大小类型(DST)时,这个函数会根据实际值计算其内存占用。在底层实现中,size_of_val实际上是通过将元素数量与单个元素大小相乘来得到总大小的。
在Kani验证工具中,当验证以下代码时发现了问题:
let var: [u64; 4] = kani::any();
let fat_ptr: *const [u64] = &var as *const _;
let (thin_ptr, size) = fat_ptr.to_raw_parts();
let new_size: usize = kani::any();
let new_ptr: *const [u64] = ptr::from_raw_parts(thin_ptr, new_size);
问题本质
问题的核心在于,当new_size与size_of::<u64>()(即8)相乘时,可能发生整数溢出。按照Rust的安全规范,这种溢出应当被检测为未定义行为(UB)。然而,Kani的验证过程却未能捕获这种情况,导致验证错误地通过。
技术分析
-
指针的胖指针结构:Rust中的胖指针(如切片指针)包含两部分信息:数据指针和长度。当重建指针时,长度参数可能被恶意构造。
-
乘法溢出风险:
size_of_val的实现本质上是length * size_of::<T>(),当长度足够大时,这个乘法可能超出usize的范围。 -
验证遗漏:Kani在处理
size_of_val_raw内部调用时,没有充分考虑乘法溢出的可能性,导致验证过程忽略了这一潜在UB。
修复方案
修复此问题需要在Kani中增强对size_of_val相关操作的验证逻辑:
- 显式检查乘法运算是否可能溢出
- 在检测到潜在溢出时正确标记为未定义行为
- 确保验证过程能够捕获这种类型的算术溢出
对开发者的启示
这个问题提醒我们,在使用size_of_val或类似涉及动态大小计算的函数时,应当:
- 警惕长度参数的可信度,特别是当它来自不受信任的源时
- 考虑使用
checked_mul等安全算术方法防御性编程 - 在验证工具中,算术运算的边界条件需要特别关注
总结
Kani工具对size_of_val计算溢出的遗漏验证是一个典型的内存安全边界问题。通过修复这一问题,Kani增强了对Rust程序中潜在算术溢出风险的检测能力,进一步巩固了其作为Rust程序验证工具的可信度。这也体现了形式化验证工具在捕捉语言规范边缘情况方面的重要价值。
AutoGLM-Phone-9BAutoGLM-Phone-9B是基于AutoGLM构建的移动智能助手框架,依托多模态感知理解手机屏幕并执行自动化操作。Jinja00
Kimi-K2-ThinkingKimi K2 Thinking 是最新、性能最强的开源思维模型。从 Kimi K2 开始,我们将其打造为能够逐步推理并动态调用工具的思维智能体。通过显著提升多步推理深度,并在 200–300 次连续调用中保持稳定的工具使用能力,它在 Humanity's Last Exam (HLE)、BrowseComp 等基准测试中树立了新的技术标杆。同时,K2 Thinking 是原生 INT4 量化模型,具备 256k 上下文窗口,实现了推理延迟和 GPU 内存占用的无损降低。Python00
GLM-4.6V-FP8GLM-4.6V-FP8是GLM-V系列开源模型,支持128K上下文窗口,融合原生多模态函数调用能力,实现从视觉感知到执行的闭环。具备文档理解、图文生成、前端重构等功能,适用于云集群与本地部署,在同类参数规模中视觉理解性能领先。Jinja00
HunyuanOCRHunyuanOCR 是基于混元原生多模态架构打造的领先端到端 OCR 专家级视觉语言模型。它采用仅 10 亿参数的轻量化设计,在业界多项基准测试中取得了当前最佳性能。该模型不仅精通复杂多语言文档解析,还在文本检测与识别、开放域信息抽取、视频字幕提取及图片翻译等实际应用场景中表现卓越。00
GLM-ASR-Nano-2512GLM-ASR-Nano-2512 是一款稳健的开源语音识别模型,参数规模为 15 亿。该模型专为应对真实场景的复杂性而设计,在保持紧凑体量的同时,多项基准测试表现优于 OpenAI Whisper V3。Python00
GLM-TTSGLM-TTS 是一款基于大语言模型的高质量文本转语音(TTS)合成系统,支持零样本语音克隆和流式推理。该系统采用两阶段架构,结合了用于语音 token 生成的大语言模型(LLM)和用于波形合成的流匹配(Flow Matching)模型。 通过引入多奖励强化学习框架,GLM-TTS 显著提升了合成语音的表现力,相比传统 TTS 系统实现了更自然的情感控制。Python00
Spark-Formalizer-X1-7BSpark-Formalizer 是由科大讯飞团队开发的专用大型语言模型,专注于数学自动形式化任务。该模型擅长将自然语言数学问题转化为精确的 Lean4 形式化语句,在形式化语句生成方面达到了业界领先水平。Python00