SimpleAR项目安装与配置指南
2025-04-17 05:56:39作者:郁楠烈Hubert
1. 项目基础介绍
SimpleAR是一个基于自回归技术的视觉生成模型,它在保持仅有5亿参数量的同时,能够生成高达1024分辨率的图像,并在文本到图像生成的任务中取得领先性能。该项目主要由Python语言实现,辅以Cuda进行加速计算。
2. 关键技术和框架
- 自回归模型(Autoregressive Model):SimpleAR采用了自回归模型,该模型能够逐个生成图像的像素,从而生成高质量的图像。
- Cosmos Tokenizer:用于图像编码的视觉分词器,它将图像转换成模型可以理解的视觉令牌。
- Transformers:该项目使用了Transformers库,这是处理序列数据(如文本或图像序列)的常用框架。
- PyTorch:深度学习框架,用于模型的训练和推断。
3. 安装和配置准备工作
在开始安装之前,请确保您的系统满足了以下先决条件:
- Python 3.6及以上版本 -pip(Python的包管理器) -Cuda 10.2及以上版本(用于GPU加速)
详细安装步骤
步骤一:安装Python环境
首先,您需要为SimpleAR创建一个虚拟环境并激活它:
python3 -m venv env
source env/bin/activate
步骤二:安装依赖
在虚拟环境中安装所需的Python包:
pip install -e ".[train]"
cd transformers
pip install -e .
cd ..
步骤三:下载Cosmos Tokenizer
Cosmos Tokenizer用于将图像转换为模型可处理的视觉令牌:
cd checkpoints
git lfs install
git clone https://huggingface.co/nvidia/Cosmos-1.0-Tokenizer-DV8x16x16
步骤四:准备数据
您需要准备图像数据集,并使用Cosmos Tokenizer提取视觉令牌。以下是一个提取命令的例子:
torchrun --nnodes=1 --nproc_per_node=8 simpar/data/extract_token.py --dataset_type "image" --dataset_name "example" --code_path "/path_to_saved_tokens" --gen_data_path "/path_to_meta_json" --gen_resolution 1024
步骤五:训练模型
使用以下命令开始训练模型,您需要替换/path_to_your_dir
和/path_to_output_dir
为实际路径:
ACCELERATE_CPU_AFFINITY=1 \
torchrun --nnodes=4 --nproc_per_node=8 llava/train/train_mem.py --deepspeed scripts/zero3.json --model_name_or_path "/path_to_your_dir/Qwen2.5-0.5B-Instruct" --version "qwen_1_5" --gen_data_path /path_to_annotation_file --gen_image_folder "" --sample_short True --mm_tunable_parts="mm_language_model" --p_drop_cond 0.1 --mm_use_im_start_end False --mm_use_im_patch_token False --mm_patch_merge_type spatial_unpad --bf16 True --run_name test --output_dir /path_to_output_dir --num_train_epochs 1 --per_device_train_batch_size 8 --per_device_eval_batch_size 1 --gradient_accumulation_steps 2 --evaluation_strategy "no" --save_strategy "steps" --save_steps 5000 --learning_rate 1e-4 --weight_decay 0.01 --warmup_ratio 0.0 --lr_scheduler_type "constant" --logging_steps 1 --tf32 True --model_max_length 1536 --dataloader_num_workers 16 --lazy_preprocess True --torch_compile True --torch_compile_backend "inductor" --dataloader_drop_last True --report_to wandb --attn_implementation sdpa
按照上述步骤,您应该能够成功安装和配置SimpleAR项目。如果在安装过程中遇到任何问题,请确保检查每个步骤的细节,并确认所有路径都是正确的。
登录后查看全文
热门项目推荐
- DDeepSeek-V3.1-BaseDeepSeek-V3.1 是一款支持思考模式与非思考模式的混合模型Python00
- HHunyuan-MT-7B腾讯混元翻译模型主要支持33种语言间的互译,包括中国五种少数民族语言。00
GitCode-文心大模型-智源研究院AI应用开发大赛
GitCode&文心大模型&智源研究院强强联合,发起的AI应用开发大赛;总奖池8W,单人最高可得价值3W奖励。快来参加吧~065CommonUtilLibrary
快速开发工具类收集,史上最全的开发工具类,欢迎Follow、Fork、StarJava05GitCode百大开源项目
GitCode百大计划旨在表彰GitCode平台上积极推动项目社区化,拥有广泛影响力的G-Star项目,入选项目不仅代表了GitCode开源生态的蓬勃发展,也反映了当下开源行业的发展趋势。07GOT-OCR-2.0-hf
阶跃星辰StepFun推出的GOT-OCR-2.0-hf是一款强大的多语言OCR开源模型,支持从普通文档到复杂场景的文字识别。它能精准处理表格、图表、数学公式、几何图形甚至乐谱等特殊内容,输出结果可通过第三方工具渲染成多种格式。模型支持1024×1024高分辨率输入,具备多页批量处理、动态分块识别和交互式区域选择等创新功能,用户可通过坐标或颜色指定识别区域。基于Apache 2.0协议开源,提供Hugging Face演示和完整代码,适用于学术研究到工业应用的广泛场景,为OCR领域带来突破性解决方案。00openHiTLS
旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!C0381- WWan2.2-S2V-14B【Wan2.2 全新发布|更强画质,更快生成】新一代视频生成模型 Wan2.2,创新采用MoE架构,实现电影级美学与复杂运动控制,支持720P高清文本/图像生成视频,消费级显卡即可流畅运行,性能达业界领先水平Python00
- GGLM-4.5-AirGLM-4.5 系列模型是专为智能体设计的基础模型。GLM-4.5拥有 3550 亿总参数量,其中 320 亿活跃参数;GLM-4.5-Air采用更紧凑的设计,拥有 1060 亿总参数量,其中 120 亿活跃参数。GLM-4.5模型统一了推理、编码和智能体能力,以满足智能体应用的复杂需求Jinja00
Yi-Coder
Yi Coder 编程模型,小而强大的编程助手HTML013
热门内容推荐
最新内容推荐
项目优选
收起

openGauss kernel ~ openGauss is an open source relational database management system
C++
136
186

🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
881
521

旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!
C
361
381

React Native鸿蒙化仓库
C++
182
264

deepin linux kernel
C
22
5

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台,包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分,采用java语言实现,可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用
Java
7
0

为仓颉编程语言开发者打造活跃、开放、高质量的社区环境
Markdown
1.09 K
0

一款跨平台的 Markdown AI 笔记软件,致力于使用 AI 建立记录和写作的桥梁。
TSX
83
4

🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端
TypeScript
613
60

open-eBackup是一款开源备份软件,采用集群高扩展架构,通过应用备份通用框架、并行备份等技术,为主流数据库、虚拟化、文件系统、大数据等应用提供E2E的数据备份、恢复等能力,帮助用户实现关键数据高效保护。
HTML
118
78