SelftokTokenizer 的安装和配置教程

2025-05-29 05:32:35作者：江焘钦

1. 项目基础介绍和主要编程语言

SelftokTokenizer 是一个开源项目，旨在提出一种新的图像表示方法——自洽标记器（Selftok）。Selftok 通过将自回归（AR）先验结合到图像生成过程的反向扩散中，摒弃了传统的空间先验。该项目的主要编程语言是 Python。

2. 项目使用的关键技术和框架

SelftokTokenizer 使用了以下关键技术和框架：

自回归（AR）先验：将语言中的因果结构映射到视觉标记中。
扩散模型：用于图像生成的反向扩散过程。
视觉语言模型（VLM）：结合 Selftok 标记，可以训练纯离散自回归架构的 VLM，无需额外模块或训练目标。
强化学习（RL）：用于视觉生成的有效性，与大型语言模型中的 RL 效果相媲美。

3. 项目安装和配置的准备工作及详细安装步骤

准备工作

在开始安装之前，请确保您的系统中已安装以下依赖：

Python（推荐版本 3.10）
conda 或其他 Python 环境管理工具
Git

安装步骤

步骤 1：克隆项目仓库

打开命令行工具，执行以下命令克隆项目仓库：

git clone https://github.com/selftok-team/SelftokTokenizer.git

步骤 2：创建并激活虚拟环境

创建一个名为 selftok 的虚拟环境，并激活它：

conda create -n selftok python=3.10
conda activate selftok

步骤 3：安装项目依赖

在虚拟环境中，使用以下命令安装项目所需的依赖：

pip install -r requirements.txt

步骤 4：配置项目

根据您的需求，配置项目中的 config.yml 文件。您可能需要修改 pretrained 和 sd3_pretrained 路径，指向您的预训练模型文件。

步骤 5：进行标记和图像解码

以下是一个简单的脚本示例，展示了如何使用 SelftokTokenizer 进行图像的标记化和解码：

# 标记化
from mimogpt.infer import SelftokPipeline
from torchvision import transforms
from PIL import Image
import torch
import numpy as np

# 配置参数
yml_path = './configs/res256/256-eval.yml'
pretrained_path = 'path/to/your/tokenizer_512_ckpt.pth'
sd3_pretrained_path = 'path/to/your/models--stabilityai--stable-diffusion-3-medium-diffusers'
data_size = 256

# 创建 SelftokPipeline 实例
model = SelftokPipeline(yml_path, pretrained_path, sd3_pretrained_path, data_size, device='cuda')

# 图像转换
img_transform = transforms.Compose([
    transforms.Resize(data_size),
    transforms.CenterCrop(data_size),
    transforms.NormalizeToTensor(),
])

# 图像路径
image_paths = ['./test.jpg']

# 加载图像并转换为标记
images = [img_transform(Image.open(p)) for p in image_paths]
images = torch.stack(images).to('cuda')
tokens = model.encoding(images, device='cuda')
np.save('./tokens.npy', tokens.detach().cpu().numpy())

# 解码标记为图像
tokens = np.load('./tokens.npy')
images = model.decoding(tokens, device='cuda')
for b in range(len(images)):
    save_image(images[b], f'./re_{b}_{data_size}_2.png')