超越像素填充：Kornia基于Transformer的图像修复新范式

2026-02-05 04:56:17作者：舒璇辛Bertina

你是否还在为老照片的划痕修复烦恼？是否遇到过珍贵图像因遮挡而无法完整展示的困境？传统图像修复方法要么边缘模糊，要么细节丢失，难以兼顾修复质量与效率。本文将带你探索Kornia库中基于Transformer的图像修复技术，无需深厚的AI背景，也能轻松实现专业级图像修复效果。读完本文，你将掌握：

Transformer如何理解图像语义关系
Kornia修复模块的核心组件与工作流程
从零开始的图像修复实战案例
不同场景下的参数调优技巧

图像修复的技术演进与痛点

图像修复（Image Inpainting）技术经历了从传统方法到深度学习的跨越。早期的基于扩散方程的方法（如Telea算法）仅能处理简单划痕，而基于CNN的方法（如DeepFill）虽然提升了修复质量，但在处理大区域缺失时仍存在语义不一致问题。

Kornia作为专注于几何计算机视觉的PyTorch库，通过引入Transformer架构解决了这一难题。其核心优势在于：

全局上下文理解：Transformer的自注意力机制能捕捉长距离像素依赖关系
端到端可微分：支持梯度反向传播，便于嵌入复杂视觉任务 pipeline
模块化设计：提供从预处理到后处理的完整工具链

Kornia修复模块的架构解析

核心组件与代码结构

Kornia的图像修复功能主要依托于contrib模块中的Transformer实现，关键代码分布在以下文件：

graph TD
    A[图像输入] --> B[预处理模块]
    B --> C[VisionTransformer编码器]
    C --> D[掩码注意力机制]
    D --> E[特征解码器]
    E --> F[图像重建]
    F --> G[后处理输出]
    
    subgraph 核心代码文件
    H[kornia/contrib/vit.py]
    I[kornia/contrib/mask_decoder.py]
    J[kornia/contrib/transformer.py]
    end

视觉Transformer编码器（kornia/contrib/vit.py）负责将图像分解为补丁序列并提取语义特征：

class VisionTransformer(nn.Module):
    def __init__(self, image_size=224, patch_size=16, embed_dim=768, depth=12, num_heads=12):
        super().__init__()
        self.patch_embed = PatchEmbed(
            image_size=image_size,
            patch_size=patch_size,
            in_channels=3,
            out_channels=embed_dim
        )
        self.encoder = Encoder(
            embed_dim=embed_dim,
            depth=depth,
            num_heads=num_heads
        )

掩码解码器（kornia/contrib/mask_decoder.py）则通过交叉注意力机制融合图像特征与掩码信息，实现缺失区域的内容推断：

def forward(self, image_embeddings, image_pe, sparse_prompt_embeddings, dense_prompt_embeddings):
    # 生成掩码预测
    masks, iou_pred = self.predict_masks(
        image_embeddings=image_embeddings,
        image_pe=image_pe,
        sparse_prompt_embeddings=sparse_prompt_embeddings,
        dense_prompt_embeddings=dense_prompt_embeddings,
    )
    return masks, iou_pred

Transformer修复的工作原理

图像分块与编码：输入图像被分割为16×16的补丁，通过线性投影和位置编码转换为特征向量
掩码注意力：Transformer编码器中的自注意力机制会自动关注未损坏区域的特征
跨尺度特征融合：结合低层级细节特征与高层级语义特征
生成式修复：解码器根据上下文信息预测缺失区域像素值

实战：使用Kornia修复老照片划痕

环境准备与安装

首先确保已安装Kornia及相关依赖：

pip install kornia torchvision matplotlib

完整修复代码

以下是修复老照片划痕的示例代码，包含从加载图像到显示结果的完整流程：

import torch
import kornia as K
from kornia.contrib import VisionTransformer, MaskDecoder
from kornia.utils import download_url
from PIL import Image
import matplotlib.pyplot as plt

# 加载示例图像和掩码
image = K.io.load_image("old_photo.jpg", K.io.ImageLoadType.RGB32)  # 加载为32位RGB图像
mask = K.io.load_image("scratch_mask.jpg", K.io.ImageLoadType.GRAY32)  # 加载掩码图像

# 初始化模型
vit = VisionTransformer.from_config("base", pretrained=True)
mask_decoder = MaskDecoder(transformer_dim=256, num_multimask_outputs=3)

# 图像预处理
input_tensor = K.geometry.resize(image, (224, 224))
input_tensor = K.enhance.normalize(input_tensor, torch.tensor([0.5, 0.5, 0.5]), torch.tensor([0.5, 0.5, 0.5]))

# 执行修复
with torch.no_grad():
    image_embedding = vit(input_tensor.unsqueeze(0))
    masks, _ = mask_decoder(
        image_embeddings=image_embedding,
        image_pe=vit.get_position_embedding(),
        sparse_prompt_embeddings=torch.zeros(1, 0, 256),  # 无稀疏提示
        dense_prompt_embeddings=mask.unsqueeze(0).unsqueeze(0).float()
    )

# 后处理与可视化
result = K.geometry.resize(masks[0, 0], image.shape[1:3])
result = K.utils.tensor_to_image(result)

plt.figure(figsize=(15, 5))
plt.subplot(131)
plt.imshow(K.utils.tensor_to_image(image))
plt.title("原始图像")
plt.subplot(132)
plt.imshow(K.utils.tensor_to_image(mask), cmap='gray')
plt.title("掩码区域")
plt.subplot(133)
plt.imshow(result)
plt.title("修复结果")
plt.show()