PickScore 开源项目教程

2026-01-18 09:43:29作者：瞿蔚英Wynne

项目介绍

PickScore 是一个用于评估文本生成图像质量的模型。该项目基于 CLIP 模型，通过训练一个评分函数来预测用户对生成图像的偏好。PickScore 能够帮助开发者在文本到图像生成任务中选择最佳的生成图像，从而提高生成模型的性能。

项目快速启动

安装依赖

首先，克隆项目仓库并安装必要的依赖：

git clone https://github.com/yuvalkirstain/pickscore.git
cd pickscore
conda create -n pickscore python=3.8
conda activate pickscore
pip install -r requirements.txt

加载模型

接下来，加载 PickScore 模型并进行推理：

from transformers import AutoProcessor, AutoModel
import torch

# 加载模型
device = "cuda" if torch.cuda.is_available() else "cpu"
processor_name_or_path = "laion/CLIP-ViT-H-14-laion2B-s32B-b79K"
model_pretrained_name_or_path = "yuvalkirstain/PickScore_v1"

processor = AutoProcessor.from_pretrained(processor_name_or_path)
model = AutoModel.from_pretrained(model_pretrained_name_or_path).to(device)

# 示例图像和文本
images = [...]  # 替换为实际图像
prompt = "一个美丽的日落"

# 预处理图像和文本
image_inputs = processor(images=images, padding=True, truncation=True, max_length=77, return_tensors="pt").to(device)
text_inputs = processor(text=prompt, padding=True, truncation=True, max_length=77, return_tensors="pt").to(device)

# 计算评分
with torch.no_grad():
    image_embs = model(**image_inputs).last_hidden_state
    text_embs = model(**text_inputs).last_hidden_state
    scores = torch.cosine_similarity(image_embs, text_embs).mean()

print(f"图像评分: {scores.item()}")

应用案例和最佳实践

应用案例

PickScore 可以应用于多种场景，例如：

图像生成模型的评估：通过 PickScore 对生成的图像进行评分，选择最符合文本描述的图像。
图像生成模型的改进：利用 PickScore 的评分结果来调整生成模型的参数，提高生成图像的质量。

最佳实践

数据集选择：使用 Pick-a-Pic 数据集进行训练和评估，该数据集包含大量用户偏好的文本到图像生成样本。
模型微调：根据具体应用场景对 PickScore 模型进行微调，以适应特定的文本到图像生成任务。

典型生态项目

PickScore 作为一个文本到图像生成评估工具，与以下项目紧密相关：

CLIP 模型：PickScore 基于 CLIP 模型进行开发，CLIP 模型在图像和文本的联合嵌入空间中表现出色。
Hugging Face Transformers：使用 Hugging Face 的 Transformers 库加载和使用 PickScore 模型。
Pick-a-Pic 数据集：该数据集提供了丰富的文本到图像生成样本，是训练和评估 PickScore 的重要资源。

通过结合这些生态项目，可以构建一个完整的文本到图像生成和评估系统，从而推动相关技术的发展。

PickScore

提供PickScore偏好预测模型及百万级Pick-a-Pic用户偏好数据集，支持文本到图像生成质量评估，含推理、训练代码与Web演示。

项目地址：https://gitcode.com/gh_mirrors/pi/PickScore

登录后查看全文