Kani验证工具中char类型有效值检查的缺陷分析

2025-06-30 14:45:22作者：傅爽业Veleda

背景介绍

Kani是一个用于Rust程序的模型检查工具，它能够帮助开发者发现程序中的潜在错误和未定义行为。在Kani的验证功能中，-Zvalid-value-checks选项用于检查变量值是否符合其类型的有效范围。然而，在处理Rust的char类型时，当前实现存在一个关键缺陷。

问题描述

Rust中的char类型表示一个Unicode标量值，其有效范围是0x0到0xD7FF，以及0xE000到0x10FFFF。中间的0xD800到0xDFFF范围是代理对(surrogate pairs)区域，在Rust中被视为无效的char值。

当前Kani的实现中，char类型的有效值检查仅使用了一个连续的范围(0到0x10FFFF)，而没有排除中间的代理对区域。这导致当使用std::mem::transmute将一个u32值强制转换为char时，Kani无法正确识别代理对范围内的无效值。

技术分析

现有实现的问题

Kani的ValidValueReq结构体目前只能表示单个连续的值范围。对于char类型，它简单地生成了一个从0到1114111(0x10FFFF)的连续范围检查：

ValidValueReq {
    offset: 0,
    size: MachineSize { num_bits: 32 },
    valid_range: 0..=1114111
}

这种实现忽略了Unicode标准中代理对区域的特殊处理，导致验证不准确。

验证失败的示例

当开发者尝试以下代码时：

#[kani::proof]
fn transmute_surrogate_ub() {
    unsafe {
        let val: u32 = kani::any();
        kani::assume(val < char::MAX.into());
        let c: char = std::mem::transmute::<u32, char>(val) as char;
        match val {
            0..0xD800 | 0xE000..0x110000 => assert!(char::from_u32(val).is_some()),
            _ => unreachable!(),
        }
    }
}

Kani会错误地允许代理对区域的值通过验证，最终触发unreachable!()分支，这表明验证逻辑存在缺陷。

解决方案探讨

方案一：修改范围检查逻辑

最直接的解决方案是修改ty_validity_per_offset函数，使其能够为char类型生成两个独立的有效范围：

0x0到0xD7FF
0xE000到0x10FFFF

然而，这种方案需要调整Kani的验证生成逻辑，使其能够处理多个不连续的范围检查。

方案二：扩展ValidValueReq结构体

更彻底的解决方案是扩展ValidValueReq结构体，使其能够表示多个不连续的有效范围。这需要：

将valid_range字段改为可以表示多个范围的类型
修改相关的验证生成逻辑
确保与StableMIR的ABI兼容性

这种方案虽然工作量较大，但提供了更灵活的验证能力，可以适应未来可能出现的其他具有不连续有效范围的类型。

实现建议

基于当前情况，建议采用分阶段实现：

首先为char类型添加特殊处理，生成两个独立的范围检查
随后重构ValidValueReq和相关逻辑，使其原生支持多范围验证
最终移除char类型的特殊处理，使用通用的多范围验证机制

这种渐进式改进可以确保功能的稳定性，同时为未来扩展奠定基础。

结论

Kani验证工具中char类型的有效值检查目前存在缺陷，未能正确处理Unicode代理对区域。修复这一问题需要调整验证逻辑以支持不连续的有效范围。这不仅关系到char类型的正确验证，也体现了静态验证工具在处理语言类型系统复杂性时面临的挑战。通过改进这一机制，可以增强Kani对Rust类型系统的支持能力，提高验证的准确性和可靠性。

kani

Kani Rust Verifier

项目地址：https://gitcode.com/gh_mirrors/ka/kani

登录后查看全文