梦境模拟器：探索人类视觉相似度的新维度

2024-05-22 20:10:23作者：尤辰城Agatha

梦境模拟器（DreamSim）是一个创新的感知图像相似度度量工具，它旨在填补像素级和概念级图像比较之间的空白。当前的感知指标主要基于低层次的颜色和纹理，而无法捕捉到布局、姿势或语义内容等中层差异。尽管像DINO和CLIP这样的模型能够提供高层次和语义判断，但它们可能并不完全符合人类对更细致特征的感知。

通过训练一个模型，将CLIP、OpenCLIP和DINO的嵌入进行拼接，并在大约2万个由扩散模型生成的图像三元组上微调以适应人类的感知判断，梦境模拟器实现了更好的人类相似性判断一致性。这一方法已被证明在图像检索等下游应用中表现优越。

技术分析

梦境模拟器采用了一种混合的方法，结合了低级和高级图像特征，形成一个单一的度量标准。它利用预训练的深度学习模型（如CLIP、DINO）的向量表示，对其进行再训练，以更好地匹配人眼的视觉相似度感知。这使得它不仅能够在像素级别上工作，而且还能理解图像的更高层次内容。

应用场景

图像检索：在大量图像数据库中快速找到与目标图像最相似的图片。
图像处理和生成：作为评估生成图像质量的工具，指导算法优化以提高人类感知的相似性。
计算机视觉研究：作为一个基准来衡量新模型对人类视觉感知的理解程度。

项目特点

全方位比较：超越传统的像素和局部统计比较，考虑更多图像元素。
人工智能与人类感知的一致性：通过大量人类判断数据微调，提高了与人类视觉一致性的评分。
高效单分支模型：提供了轻量级的实现选项，可以在不牺牲太多性能的前提下快速运行。
灵活应用：支持从简单的相似度计算到复杂的特征提取和损失函数，适用于各种任务。

快速上手

要开始使用梦境模拟器，只需安装库，加载模型，然后计算两个图像之间的距离。它还提供了一个Colab notebook，演示如何利用这个工具进行更深入的操作，包括单一模型的使用、特征提取、图像检索和作为损失函数的使用。

梦境模拟器是一个强大的工具，可以提升你的计算机视觉应用的感知质量。立即尝试并加入这场探索人类视觉理解的新旅程！

# 安装
pip install dreamsim

# 负载模型并计算相似度
from dreamsim import dreamsim
from PIL import Image

model, preprocess = dreamsim(pretrained=True)
img1 = preprocess(Image.open("img1_path")).to("cuda")
img2 = preprocess(Image.open("img2_path")).to("cuda")
distance = model(img1, img2)

为了保持最新更新，请访问项目页面，并查阅相关文档以获取更多信息和示例代码。我们期待你的反馈，一起构建更加智能和直观的图像处理系统！

dreamsim

DreamSim: Learning New Dimensions of Human Visual Similarity using Synthetic Data (NeurIPS 2023 Spotlight)

项目地址：https://gitcode.com/gh_mirrors/dr/dreamsim

登录后查看全文