NiT 的项目扩展与二次开发

2025-06-15 13:48:33作者：俞予舒Fleming

项目的基础介绍

NIT（Native-resolution diffusion Transformer）是一个开源项目，由MMLab CUHK和Shanghai AI Lab合作开发。该项目提出了一个创新的模型，用于合成具有不同分辨率和纵横比的图像。NIT通过在去噪过程中明确学习这些变化，显著提高了训练效率和模型的泛化能力。在类引导的ImageNet生成任务中，NIT在 $256\times256$ 和 $512\times512$ 分辨率上都取得了最先进的成果。此外，NIT还能推广到任意分辨率和纵横比，例如在 $1024\times1024$ 分辨率上达到 $4.52$ FID，在 $432\times768$ 分辨率上达到 $4.11$ FID。

项目的核心功能

NIT的核心功能是图像合成，它通过去噪过程学习图像的分辨率和纵横比变化，从而生成高质量、高分辨率的图像。NIT使用了Transformer架构，并引入了扩散模型的思想，使得模型能够更好地处理图像的复杂性和多样性。

项目使用了哪些框架或库？

NIT项目主要使用了PyTorch深度学习框架，它是一个开源的Python库，用于构建和训练神经网络。此外，NIT还使用了Flash Attention库，它是一个用于加速Transformer模型训练的库。此外，NIT还依赖一些其他开源库，如TorchVision和OpenAI的CLIP模型等。

项目的代码目录及介绍

NIT项目的代码目录结构如下：

NiT/
├── assets/            # 存放模型和数据的配置文件
├── configs/           # 存放模型的配置文件
├── nit/               # 存放模型代码
├── projects/          # 存放模型训练和评估的代码
├── scripts/           # 存放脚本的代码，如数据预处理脚本、模型训练脚本等
├── tools/             # 存放工具代码，如数据下载工具、模型评估工具等
├── .gitignore         # 定义Git忽略的文件
├── LICENSE            # 定义项目的许可证
├── README.md          # 定义项目的说明文档
├── requirements.txt   # 定义项目的依赖库
├── setup.py           # 定义项目的安装脚本