Hypothesis项目中的浮点数唯一性测试问题解析

2025-05-29 17:34:34作者：钟日瑜

在Python测试框架Hypothesis的开发过程中，团队发现了一个与浮点数唯一性测试相关的内部错误。该错误表现为在使用包含nan（非数字）值的唯一集合时，测试结果会出现不稳定性。

问题现象

开发团队在运行测试套件时，发现某些涉及唯一集合的测试案例会随机失败。这些测试案例通常涉及以下特征：

使用frozenset或dict等唯一性集合
集合中包含浮点数，特别是nan值
使用了from_type等策略生成测试数据

问题根源

经过深入分析，团队发现问题的核心在于Python对nan值的特殊处理方式。具体表现为：

浮点数比较的特殊性：在Python中，nan与任何值（包括自身）的比较都会返回False，这与常规浮点数不同。
对象标识优化：Python的列表等容器在进行in操作时，会先使用is进行快速比较，仅在is返回False时才使用==比较。
Hypothesis内部处理：Hypothesis在生成浮点数时，会对nan值进行特殊处理，可能导致生成不同对象标识的nan。

这种组合导致了以下问题场景：

第一次生成的nan对象被放入集合
第二次生成的nan对象虽然值相同，但由于对象标识不同，且==比较返回False，系统认为这是一个新值
这违反了唯一性集合的预期行为，导致测试失败

解决方案

团队提出了几种可能的解决方案：

确保唯一对象标识：在生成nan值时，始终返回同一个对象，保证is比较的一致性。
绕过优化：在唯一性检查时，强制使用==比较而非依赖is优化。
预处理浮点数：在将浮点数放入集合前，对nan值进行特殊处理，确保一致性。

经过讨论，团队倾向于第一种方案，即在IR层之上确保每次生成nan时返回不同的浮点数对象。这种方案：

保持了测试的确定性
不会影响现有的测试能力
在架构上更为合理，将特殊处理放在适当层级

技术启示

这个问题揭示了几个重要的技术要点：

浮点数处理的陷阱：nan在比较和哈希时的特殊行为需要特别注意。
对象标识与值相等的区别：Python的优化行为可能在特殊情况下导致意外结果。
测试框架的健壮性：即使是成熟的测试框架，也需要不断处理边缘案例。

对于使用Hypothesis或其他测试框架的开发者，这个案例提醒我们：

在使用唯一性集合时要特别注意浮点数
了解Python底层的行为特性
在编写涉及特殊值（如nan）的测试时要格外谨慎

Hypothesis团队通过这个问题，不仅修复了一个具体错误，还增强了框架对特殊值的处理能力，为未来可能的类似问题提供了更好的基础。

hypothesis

The property-based testing library for Python

项目地址：https://gitcode.com/gh_mirrors/hy/hypothesis

登录后查看全文

项目优选

收起

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

455

437

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。