PyTorch Vision中save_image函数对uint8张量的处理问题解析

2025-05-13 09:42:31作者：曹令琨Iris

问题背景

在使用PyTorch Vision库进行图像处理时，开发者经常会使用torchvision.utils.save_image函数来保存张量为图像文件。然而，当直接使用uint8类型的张量作为输入时，该函数会抛出"RuntimeError: result type Float can't be cast to the desired output type Byte"的错误。

问题复现

让我们看一个简单的代码示例：

import torch
import torchvision

random_uint8_tensor = torch.randint(0, 256, (3, 100, 100), dtype=torch.uint8)
output_img_name = 'random.png'
torchvision.utils.save_image(random_uint8_tensor, output_img_name)

这段代码看似合理，因为图像数据通常以8位无符号整数(0-255)的形式存储。然而，执行时会报错，提示无法将浮点类型转换为字节类型。

原因分析

深入查看save_image函数的实现可以发现，该函数内部默认假设输入张量是浮点类型，并在保存前会执行以下操作：

将输入张量乘以255
加上0.5进行四舍五入
使用clamp限制在0-255范围内
转换为uint8类型

当输入已经是uint8类型时，这种处理流程就会导致类型转换冲突。本质上，save_image函数设计时主要考虑的是处理归一化后的浮点张量(0-1范围)，而非原始像素值。

解决方案

对于uint8类型的输入张量，有两种推荐的处理方式：

方法一：转换为浮点类型并指定范围

random_uint8_tensor = torch.randint(0, 256, (3, 100, 100), dtype=torch.uint8).float()
torchvision.utils.save_image(random_uint8_tensor, 'random.png', normalize=True, value_range=(0, 255))

方法二：使用PIL库直接保存

from PIL import Image
random_uint8_tensor = torch.randint(0, 256, (3, 100, 100), dtype=torch.uint8)
Image.fromarray(random_uint8_tensor.permute(1, 2, 0).numpy()).save('random.png')