scikit-learn中array_api_strict设备参数命名的优化实践

2025-04-30 06:25:11作者：谭伦延

在scikit-learn项目的测试过程中，开发团队发现了一个关于设备参数命名的小问题，这个问题虽然不大，但可能会给开发者带来一些困惑。本文将详细介绍这个问题的背景、原因以及解决方案。

问题背景

在scikit-learn的测试框架中，有一个名为yield_namespace_device_dtype_combinations的函数，它用于生成测试参数组合。这个函数会返回命名空间(namespace)、设备(device)和数据类型(dtype)的各种组合，用于测试不同配置下的功能表现。

当使用array_api_strict命名空间时，函数会先返回CPU_DEVICE，然后是device1。这导致了pytest参数化测试ID的命名出现了一些不太直观的情况：

array_api_strict-device2-float32：这里的"device2"实际上指的是Device("device1")
array_api_strict-device1-float64：这里的"device1"实际上指的是Device("CPU_DEVICE")

问题分析

这个问题的根源在于pytest的参数化测试ID生成机制。pytest对于非基本类型(非数字、字符串、布尔和None)的参数，会使用参数名作为ID的一部分。对于Device对象，pytest无法自动获取有意义的字符串表示，因此只能使用参数名。

在当前的实现中，设备参数的顺序影响了ID的生成。由于CPU_DEVICE被放在第一个位置，它被标记为"device1"，而实际的device1则被标记为"device2"，这与开发者的直觉相反。

解决方案探讨

开发团队讨论了以下几种可能的解决方案：

调整设备参数顺序：将Device("device1")放在前面。但这只是将问题转移，而不是真正解决。
自定义ID生成函数：创建一个专门的函数来生成更有意义的测试ID。这是最彻底的解决方案，但会增加一些代码复杂度。
修改array_api_strict的Device类：尝试让Device对象在测试中自动显示更有意义的字符串。但经过验证，pytest的参数化机制不支持这种方式。
文档说明：在函数文档中添加说明，解释这种命名现象。这是一个轻量级的解决方案，但不能从根本上解决问题。

经过讨论，团队认为自定义ID生成函数是最合适的解决方案，因为它能从根本上解决问题，而且团队在其他测试中已经使用了类似的方法，证明这种方法是可行的。