ART项目中PyTorch设备不匹配问题的分析与修复

2025-06-08 22:16:29作者：余洋婵Anita

问题背景

在对抗性鲁棒性工具包(ART)的使用过程中，当用户尝试在GPU环境下执行投影梯度下降(PGD)攻击时，可能会遇到一个典型的PyTorch设备不匹配错误。这个问题主要出现在ProjectedGradientDescentPyTorch攻击类的实现中，当攻击算法尝试在GPU上执行计算时，由于部分张量未被正确转移到GPU设备上，导致运行时错误。

技术细节分析

该问题的核心在于PyTorch张量的设备一致性原则。PyTorch要求参与同一运算的所有张量必须位于同一设备上(CPU或同一GPU)。在ART的实现中，_projection方法内部创建了一个新的全1张量(torch.ones(1))，但未显式指定设备位置，导致该张量默认创建在CPU上，而其他参与运算的张量位于GPU上。

具体来说，问题出现在计算扰动投影时，代码尝试执行以下操作：

values_norm == 0, torch.minimum(torch.ones(1), torch.tensor(eps).to(values_tmp.device) / values_norm)

其中values_tmp位于GPU，而torch.ones(1)位于CPU，违反了PyTorch的设备一致性原则。

解决方案

修复方案相对简单直接，只需确保所有参与运算的张量都位于同一设备上。具体修改是将CPU上的全1张量显式转移到与values_tmp相同的设备：

values_norm == 0, torch.minimum(torch.ones(1).to(values_tmp.device), torch.tensor(eps).to(values_tmp.device) / values_norm)

这一修改保证了所有张量都在GPU上执行运算，消除了设备不匹配的错误。

深入理解

这个问题揭示了在混合使用PyTorch的CPU和GPU计算时需要特别注意的几个关键点：

显式设备管理：在PyTorch中，新创建的张量默认位于CPU，必须显式转移到GPU设备才能与GPU上的其他张量进行运算。
设备一致性检查：开发涉及多设备计算的代码时，应当确保所有参与运算的张量位于同一设备，可以通过.device属性进行检查。
防御性编程：对于可能在不同设备上运行的代码，最佳实践是总是显式指定设备，或者使用现有张量的设备属性来确保一致性。

影响范围

该问题影响所有使用PyTorch后端并在GPU上执行PGD攻击的ART用户。虽然错误本身不会导致安全问题，但会中断对抗样本生成过程，影响模型鲁棒性评估的进行。

最佳实践建议

为避免类似问题，建议开发者在编写PyTorch代码时：

在模型初始化阶段明确记录和设置设备参数
为所有新创建的张量显式指定设备
实现设备一致性检查函数，在关键计算前验证所有张量的设备位置
考虑使用上下文管理器来简化设备管理

这个问题及其修复方案为PyTorch多设备编程提供了一个很好的案例研究，强调了设备一致性的重要性以及如何在实践中确保这一点。

adversarial-robustness-toolbox

Adversarial Robustness Toolbox (ART) - Python Library for Machine Learning Security - Evasion, Poisoning, Extraction, Inference - Red and Blue Teams

项目地址：https://gitcode.com/gh_mirrors/ad/adversarial-robustness-toolbox

登录后查看全文

项目优选

收起

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力