革命性图像分割技术：Segment Anything模型原理与实战指南

2026-04-03 09:06:35作者：殷蕙予

The repository provides code for running inference with the SegmentAnything Model (SAM), links for downloading the trained model checkpoints, and example notebooks that show how to use the model.

项目地址：https://gitcode.com/GitHub_Trending/se/segment-anything

传统方法瓶颈：为何现有图像分割方案无法满足通用需求？

图像分割作为计算机视觉的核心任务之一，长期面临三大挑战：需要大量标注数据进行模型训练、对特定领域存在严重过拟合、交互方式复杂且不直观。传统分割模型如Mask R-CNN需要针对特定数据集进行微调，难以适应未知物体和场景；U-Net系列模型虽然在医学影像等领域表现出色，但缺乏灵活的用户交互能力。这些局限性使得传统方法无法满足"零样本"、"交互式"、"通用物体"的分割需求。

Segment Anything Model（SAM）的出现彻底改变了这一局面。作为Meta AI提出的革命性图像分割系统，SAM通过创新的架构设计和大规模数据训练，实现了"点哪儿分哪儿"的强大功能，支持零样本泛化到新的物体和场景，同时提供灵活的交互方式。本文将从技术原理、创新突破和实践指南三个维度，全面解析SAM的工作机制和应用方法。

技术原理：SAM模型的三大核心引擎

视觉特征提取：混合注意力机制的图像编码器

SAM的图像编码器采用基于Vision Transformer的架构，负责将原始图像转换为富含语义信息的特征表示。与传统ViT不同，SAM创新性地引入了混合注意力机制，在保持计算效率的同时有效捕获长距离依赖关系。

在segment_anything/modeling/image_encoder.py中，ImageEncoderViT类实现了这一核心功能：

# 混合注意力机制实现
self.blocks = nn.ModuleList()
for i in range(depth):
    block = Block(
        dim=embed_dim,
        num_heads=num_heads,
        # 关键创新：部分层使用全局注意力，其余使用窗口注意力
        window_size=window_size if i not in global_attn_indexes else 0,
        input_size=(img_size // patch_size, img_size // patch_size),
    )
    self.blocks.append(block)

这种设计使得模型在处理1024x1024输入图像时，既能通过窗口注意力（Window Attention）高效计算局部特征，又能通过全局注意力（Global Attention）捕获跨区域的上下文信息。图像编码器输出的特征图经过颈部网络（Neck）处理后，被调整为256维的特征表示，为后续掩码生成做好准备。

图1：展示了SAM如何通过不同类型的注意力机制处理图像区域，绿色点表示注意力焦点，红色边框表示分割结果

💡 快速实践：通过修改global_attn_indexes参数，可以控制全局注意力层的位置和数量，在计算效率和特征表达能力之间取得平衡。对于边缘设备部署，可以适当减少全局注意力层数量以降低计算成本。

用户意图解析：多模态提示编码器

提示编码器是SAM实现灵活交互的核心组件，负责将用户输入的各种提示（点、框、掩码）转换为模型可理解的特征表示。SAM支持多种提示类型，这些功能在segment_anything/modeling/prompt_encoder.py中实现。

对于点和框提示，SAM采用了创新的随机位置编码方法：

class PositionEmbeddingRandom(nn.Module):
    def __init__(self, num_pos_feats: int = 64, scale: Optional[float] = None) -> None:
        super().__init__()
        self.register_buffer(
            "positional_encoding_gaussian_matrix",
            scale * torch.randn((2, num_pos_feats)),  # 随机生成位置编码矩阵
        )
    
    def _pe_encoding(self, coords: torch.Tensor) -> torch.Tensor:
        coords = 2 * coords - 1  # 归一化到[-1, 1]范围
        # 投影到随机矩阵并生成正弦余弦编码
        coords = coords @ self.positional_encoding_gaussian_matrix
        return torch.cat([torch.sin(coords), torch.cos(coords)], dim=-1)

与传统的固定正弦余弦位置编码不同，这种随机位置编码方法使模型能够更好地泛化到新的场景和提示类型。对于掩码提示，SAM使用卷积神经网络将输入掩码压缩为低维特征，实现与其他提示类型的统一处理。

图2：展示了点提示（红色星标）和框提示（绿色边框）如何被编码并用于目标分割

💡 快速实践：在_embed_points方法中，通过调整点坐标的偏移值（当前为+0.5），可以微调点提示的敏感度。对于高分辨率图像，适当减小偏移值可能获得更精确的定位效果。

精确掩码生成：动态决策的掩码解码器

掩码解码器是SAM的"最终执行者"，负责结合图像特征和提示特征生成精确的分割掩码。这一过程在segment_anything/modeling/mask_decoder.py中实现，核心创新在于动态掩码生成机制。

def forward(
    self,
    image_embeddings: torch.Tensor,
    image_pe: torch.Tensor,
    sparse_prompt_embeddings: torch.Tensor,
    dense_prompt_embeddings: torch.Tensor,
    multimask_output: bool,
) -> Tuple[torch.Tensor, torch.Tensor]:
    # 预测多个掩码和对应的质量分数
    masks, iou_pred = self.predict_masks(
        image_embeddings=image_embeddings,
        image_pe=image_pe,
        sparse_prompt_embeddings=sparse_prompt_embeddings,
        dense_prompt_embeddings=dense_prompt_embeddings,
    )
    
    # 根据是否需要多掩码输出选择不同结果
    if multimask_output:
        mask_slice = slice(1, None)  # 返回3个候选掩码
    else:
        mask_slice = slice(0, 1)     # 返回最佳掩码
    return masks[:, mask_slice, :, :], iou_pred[:, mask_slice]

掩码解码器通过小型Transformer处理图像特征和提示特征，然后使用转置卷积进行上采样，生成高分辨率掩码。模型会自动预测多个候选掩码，并为每个掩码生成质量分数，供用户选择或自动选取最优结果。

图3：展示了SAM为城市街景图像生成的多种分割掩码结果，不同颜色代表不同物体的分割区域

💡 快速实践：通过设置multimask_output=True可以获取多个候选掩码，这在处理复杂场景或模糊边界时特别有用。结合iou_pred分数，可以实现自动选择最优掩码的后处理逻辑。

创新突破：重新定义图像分割的四大技术飞跃

零样本泛化能力：从特定任务到通用分割

SAM最大的技术突破在于其强大的零样本泛化能力。通过在包含1100万张图像和10亿个掩码的SA-1B数据集上训练，模型学会了理解视觉概念的通用表示，能够分割训练集中未见过的物体和场景。

这一能力源于SAM的任务设计：模型被训练为根据任意提示生成掩码，而不是预测预定义的类别。这种设计使SAM能够适应各种新的分割任务，而无需额外训练。在segment_anything/automatic_mask_generator.py中，AutomaticMaskGenerator类展示了如何在没有任何用户提示的情况下自动生成图像中所有物体的分割掩码：

def generate(self, image: np.ndarray) -> List[Dict[str, Any]]:
    # 自动生成图像中所有物体的掩码
    return self.predictor.generate(image)

SAM的零样本性能在多个标准数据集上得到验证，包括COCO、LVIS和ADE20K等，均达到了与特定任务模型相当的水平，证明了其通用分割能力的强大。

提示工程创新：灵活多样的交互方式

SAM支持多种提示类型，包括点、框、掩码以及文本（通过结合CLIP模型），为用户提供了灵活多样的交互方式。这种设计极大地降低了图像分割的使用门槛，使非专业用户也能轻松完成复杂的分割任务。

在segment_anything/predictor.py中，Predictor类实现了处理不同提示类型的统一接口：

def set_image(self, image: np.ndarray) -> None:
    # 预处理并编码图像
    self.original_size = image.shape[:2]
    self.input_size = self.transform.apply_image(image).shape[:2]
    self.features = self.model.image_encoder(self.transform.apply_image_torch(image))

def predict(
    self,
    point_coords: Optional[np.ndarray] = None,
    point_labels: Optional[np.ndarray] = None,
    box: Optional[np.ndarray] = None,
    mask_input: Optional[np.ndarray] = None,
    multimask_output: bool = True,
) -> Tuple[np.ndarray, np.ndarray, np.ndarray]:
    # 根据不同类型的提示生成掩码
    ...

这种灵活的提示机制使SAM能够适应各种应用场景，从简单的点击分割到复杂的交互式编辑。

图4：展示了通过点提示实现两只狗的交互式分割过程

实时交互性能：优化的模型设计

尽管SAM是一个大型模型，但其通过精心的架构设计和优化，实现了实时的交互性能。图像编码器虽然计算成本较高，但只需对每张图像处理一次；而提示编码器和掩码解码器则非常轻量，能够快速响应用户的交互操作。

在scripts/export_onnx_model.py中，提供了将模型导出为ONNX格式的工具，进一步优化推理性能：

def export_onnx_model(
    model: Sam,
    output_path: str,
    check_trace: bool = False,
    opset_version: int = 17,
):
    # 导出ONNX模型以优化推理性能
    ...

导出的ONNX模型可以在各种平台上高效运行，使SAM能够部署在从云服务器到边缘设备的各种环境中。

动态掩码决策：质量感知的掩码选择

SAM创新性地引入了掩码质量分数预测，使模型能够自动评估生成掩码的质量。这一功能在处理模糊提示或复杂场景时特别有用，模型可以生成多个候选掩码并选择质量最高的结果。

在segment_anything/modeling/mask_decoder.py中，质量分数预测通过一个简单的线性层实现：

self.iou_prediction_head = MLP(transformer_dim, transformer_dim, 1, 3)

这个设计不仅提高了分割结果的可靠性，还为后续的自动化处理提供了重要依据。

⚠️ 技术局限性：虽然SAM在大多数自然场景中表现出色，但在处理极端光照条件、透明物体或高度重叠的物体时，分割精度可能会下降。此外，模型对细小物体（如昆虫、小文字）的分割能力仍有提升空间。

实践指南：从零开始的SAM应用开发

环境搭建：本地部署全流程

要开始使用SAM，首先需要搭建开发环境。以下是完整的本地部署步骤：

克隆项目仓库：

git clone https://gitcode.com/GitHub_Trending/se/segment-anything
cd segment-anything

安装依赖：

pip install -e .
pip install opencv-python pycocotools matplotlib onnxruntime onnx

下载预训练模型（需要访问模型仓库）：
- SAM-vit-h：https://dl.fbaipublicfiles.com/segment_anything/sam_vit_h_4b8939.pth
- SAM-vit-l：https://dl.fbaipublicfiles.com/segment_anything/sam_vit_l_0b3195.pth
- SAM-vit-b：https://dl.fbaipublicfiles.com/segment_anything/sam_vit_b_01ec64.pth
验证安装：

python -c "from segment_anything import SamPredictor, sam_model_registry; sam = sam_model_registry'vit_b'; predictor = SamPredictor(sam); print('Installation successful')"

基础API使用：Python接口实战

SAM提供了简洁易用的Python API，使开发者能够快速集成分割功能。以下是使用SamPredictor进行交互式分割的基础示例：

import cv2
import numpy as np
from segment_anything import SamPredictor, sam_model_registry

# 初始化模型
sam = sam_model_registry"vit_b"
predictor = SamPredictor(sam)

# 加载图像
image = cv2.imread("notebooks/images/truck.jpg")
image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)

# 设置图像（仅需执行一次）
predictor.set_image(image)

# 定义提示：卡车轮胎的大致位置（x, y）
input_point = np.array([[500, 600]])
input_label = np.array([1])  # 1表示正点（目标内部）

# 生成掩码
masks, scores, logits = predictor.predict(
    point_coords=input_point,
    point_labels=input_label,
    multimask_output=True,
)

# 选择分数最高的掩码
best_mask = masks[np.argmax(scores)]

# 可视化结果
cv2.imwrite("truck_tire_mask.jpg", best_mask.astype(np.uint8) * 255)

图5：使用单个点提示分割卡车轮胎的结果，蓝色区域为分割掩码

高级应用：自动掩码生成与后处理

除了交互式分割，SAM还提供了自动掩码生成功能，可以在没有用户提示的情况下分割图像中的所有物体。以下是使用AutomaticMaskGenerator的示例：

from segment_anything import SamAutomaticMaskGenerator, sam_model_registry

# 初始化自动掩码生成器
sam = sam_model_registry"vit_h"
mask_generator = SamAutomaticMaskGenerator(sam)

# 生成所有物体的掩码
image = cv2.imread("demo/src/assets/data/dogs.jpg")
image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)
masks = mask_generator.generate(image)

# 后处理：按面积排序并保留前N个最大的掩码
masks.sort(key=lambda x: x["area"], reverse=True)
top_masks = masks[:2]  # 保留两个最大的掩码（两只狗）

# 可视化结果
for i, mask in enumerate(top_masks):
    mask_image = np.zeros_like(image)
    mask_image[mask["segmentation"]] = [255, 0, 0] if i == 0 else [0, 255, 0]
    cv2.addWeighted(image, 0.7, mask_image, 0.3, 0, image)

cv2.imwrite("dogs_segmented.jpg", cv2.cvtColor(image, cv2.COLOR_RGB2BGR))

图6：自动分割图像中两只狗的结果，不同颜色表示不同的分割对象

扩展应用场景：超越基础分割

SAM的强大能力为许多创新应用提供了基础。以下是两个原文章未提及的扩展应用场景：

1. 医学影像分析

SAM在医学影像分割中展现出巨大潜力。通过结合领域知识，可以快速分割不同的解剖结构或病理区域。例如，在皮肤病诊断中，医生可以通过简单的点选快速分割病变区域，辅助诊断决策。

# 医学影像分割示例（概念代码）
def segment_skin_lesion(image_path, point_coords):
    # 加载模型和图像
    predictor.set_image(cv2.imread(image_path))
    
    # 分割病变区域
    masks, _, _ = predictor.predict(point_coords=point_coords, point_labels=np.array([1]))
    
    # 计算病变面积
    lesion_area = np.sum(masks[0]) * pixel_to_mm_conversion_factor
    
    return masks[0], lesion_area

2. 工业质检自动化

在工业生产线上，SAM可用于实时检测产品缺陷。通过预先定义感兴趣区域，SAM能够自动分割异常区域，提高质检效率和准确性。

# 工业质检示例（概念代码）
def detect_product_defects(image, reference_mask):
    # 生成产品所有部件的掩码
    masks = mask_generator.generate(image)
    
    # 与参考掩码比较，识别异常区域
    for mask in masks:
        if mask["area"] < reference_area_threshold:
            # 计算与参考形状的差异
            shape_diff = calculate_shape_difference(mask["segmentation"], reference_mask)
            if shape_diff > defect_threshold:
                return True, mask["segmentation"]
    
    return False, None