2025最全指南:正确引用Vision Transformer项目的6个关键步骤
在学术写作和技术文档中,正确引用开源项目不仅是对原作者知识产权的尊重,更是确保研究可复现性的关键环节。Vision Transformer(ViT)作为计算机视觉领域的革命性模型,其官方实现gh_mirrors/vi/vision_transformer包含多个重要研究成果,错误的引用方式可能导致学术不规范或技术误导。本文将系统梳理该项目的引用规范,帮助研究者和开发者准确引用相关论文、模型和代码。
项目核心成果概览
Vision Transformer项目包含6篇关键研究论文,覆盖从基础架构到高级应用的完整技术体系。项目结构清晰,核心代码位于vit_jax/目录,模型架构定义在vit_jax/models_vit.py和vit_jax/models_mixer.py,配置文件集中在vit_jax/configs/目录。
图1:Vision Transformer模型架构(来源:vit_figure.png)
主要研究成果包括:
- ViT基础架构:将Transformer应用于图像识别的开创性工作
- MLP-Mixer:纯MLP架构在视觉任务的突破
- AugReg技术:数据增强与正则化的最佳实践
- LiT模型:零样本迁移学习的锁定图像文本调优方法
论文引用规范
基础ViT架构引用
当使用原始Vision Transformer架构(如ViT-B/16、ViT-L/32等模型)时,必须引用2020年发表的奠基性论文:
@article{dosovitskiy2020image,
title={An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale},
author={Dosovitskiy, Alexey and Beyer, Lucas and Kolesnikov, Alexander and Weissenborn, Dirk and Zhai, Xiaohua and Unterthiner, Thomas and Dehghani, Mostafa and Minderer, Matthias and Heigold, Georg and Gelly, Sylvain and others},
journal={ICLR},
year={2021}
}
该论文提出的将图像分割为16×16 patches的处理方式,以及分类令牌(classification token)机制,构成了现代视觉Transformer的基础。相关实现见vit_jax/models_vit.py第42-189行的VisionTransformer类。
MLP-Mixer架构引用
对于使用MLP-Mixer模型(如Mixer-B/16)的场景,需引用2021年提出的纯MLP视觉架构论文:
@article{tolstikhin2021mlp,
title={MLP-Mixer: An all-MLP Architecture for Vision},
author={Tolstikhin, Ilya and Houlsby, Neil and Kolesnikov, Alexander and Beyer, Lucas and Zhai, Xiaohua and Unterthiner, Thomas and Yung, Jessica and Steiner, Andreas and Keysers, Daniel and Uszkoreit, Jakob and others},
journal={NeurIPS},
year={2021}
}
MLP-Mixer通过令牌混合(token-mixing)和通道混合(channel-mixing)层实现视觉识别,其架构定义在vit_jax/models_mixer.py第36-152行。模型训练配置可参考cifar10示例。
图2:MLP-Mixer模型架构(来源:mixer_figure.png)
高级训练技术引用
当使用数据增强、正则化或迁移学习相关技术时,需根据具体方法引用对应的论文:
- AugReg技术(vit_jax/configs/augreg.py):
@article{kolesnikov2021train,
title={How to train your ViT? Data, Augmentation, and Regularization in Vision Transformers},
author={Kolesnikov, Alexander and Beyer, Lucas and Zhai, Xiaohua and Puigcerver, Joan and Yung, Jessica and Houlsby, Neil},
journal={ICML},
year={2021}
}
- 零样本迁移学习(LiT模型,model_cards/lit.md):
@article{zhai2022lit,
title={LiT: Zero-Shot Transfer with Locked-image text Tuning},
author={Zhai, Xiaohua and Wang, Xiao and Mustafa, Basil and Steiner, Andreas and Keysers, Daniel and Kolesnikov, Alexander and Beyer, Lucas},
journal={CVPR},
year={2022}
}
模型权重引用规范
项目提供的预训练模型权重需按存储位置和训练配置正确引用。所有模型文件名对应vit_jax/configs/models.py中的model_name参数,推荐优先使用AugReg训练的模型 checkpoint,其性能指标见README.md中的详细表格。
例如引用L/16模型时,应明确指定预训练数据集和训练参数:
gs://vit_models/augreg/L_16-i21k-300ep-lr_0.001-aug_strong1-wd_0.1-do_0.0-sd_0.0.npz
关键模型参数对照表:
| 模型 | 预训练数据集 | 参数量 | ImageNet准确率 |
|---|---|---|---|
| L/16 | ImageNet-21k | 1243 MiB | 85.59% |
| B/16 | ImageNet-21k | 391 MiB | 85.49% |
| R50+L/32 | ImageNet-21k | 1337 MiB | 85.99% |
代码实现引用方法
当直接使用或修改项目代码时,需在文档中明确标注代码路径和版本信息。推荐引用格式:
Vision Transformer (Version 1.0), Google Research. https://gitcode.com/gh_mirrors/vi/vision_transformer, [访问日期]
关键代码文件引用示例:
- 数据预处理:vit_jax/preprocess.py
- 训练循环:vit_jax/train.py
- 推理代码:vit_jax/inference_time.py
常见引用错误案例分析
错误案例1:遗漏核心论文
错误引用:仅引用ViT基础论文,未引用使用的AugReg训练方法
正确做法:同时引用Dosovitskiy et al. (2020)和Kolesnikov et al. (2021),并在方法部分说明使用了AugReg中的数据增强策略
错误案例2:模型版本模糊
错误引用:"使用了Vision Transformer B/16模型"
正确做法:"使用了ViT-B/16模型(预训练于ImageNet-21k,配置:b16,cifar10,参见vit_jax/configs/vit.py)"
错误案例3:代码引用不规范
错误引用:"基于Google的ViT代码实现"
正确做法:"基于vit_jax/main.py的微调代码,修改了学习率调度策略(第156-178行)"
项目致谢与贡献说明
根据CONTRIBUTING.md,任何基于该项目的二次开发或研究成果,应在致谢部分提及核心开发者:Alexey Dosovitskiy、Lucas Beyer、Alexander Kolesnikov等。对于商业用途,需联系项目团队获取授权。
引用检查清单
为确保引用完整准确,建议使用以下检查清单:
- [ ] 已明确区分引用的是论文、模型还是代码
- [ ] 论文引用包含全部作者、年份和会议信息
- [ ] 模型引用包含完整checkpoint路径和配置参数
- [ ] 代码引用包含具体文件路径和版本信息
- [ ] 致谢部分包含所有相关贡献者
通过遵循上述规范,不仅能确保学术写作的严谨性,还能帮助读者准确复现实验结果,推动计算机视觉领域的开放协作与知识共享。项目完整文档可参考README.md,最新模型和代码更新请关注官方仓库。
GLM-5智谱 AI 正式发布 GLM-5,旨在应对复杂系统工程和长时域智能体任务。Jinja00
GLM-5-w4a8GLM-5-w4a8基于混合专家架构,专为复杂系统工程与长周期智能体任务设计。支持单/多节点部署,适配Atlas 800T A3,采用w4a8量化技术,结合vLLM推理优化,高效平衡性能与精度,助力智能应用开发Jinja00
请把这个活动推给顶尖程序员😎本次活动专为懂行的顶尖程序员量身打造,聚焦AtomGit首发开源模型的实际应用与深度测评,拒绝大众化浅层体验,邀请具备扎实技术功底、开源经验或模型测评能力的顶尖开发者,深度参与模型体验、性能测评,通过发布技术帖子、提交测评报告、上传实践项目成果等形式,挖掘模型核心价值,共建AtomGit开源模型生态,彰显顶尖程序员的技术洞察力与实践能力。00
Kimi-K2.5Kimi K2.5 是一款开源的原生多模态智能体模型,它在 Kimi-K2-Base 的基础上,通过对约 15 万亿混合视觉和文本 tokens 进行持续预训练构建而成。该模型将视觉与语言理解、高级智能体能力、即时模式与思考模式,以及对话式与智能体范式无缝融合。Python00
MiniMax-M2.5MiniMax-M2.5开源模型,经数十万复杂环境强化训练,在代码生成、工具调用、办公自动化等经济价值任务中表现卓越。SWE-Bench Verified得分80.2%,Multi-SWE-Bench达51.3%,BrowseComp获76.3%。推理速度比M2.1快37%,与Claude Opus 4.6相当,每小时仅需0.3-1美元,成本仅为同类模型1/10-1/20,为智能应用开发提供高效经济选择。【此简介由AI生成】Python00
Qwen3.5Qwen3.5 昇腾 vLLM 部署教程。Qwen3.5 是 Qwen 系列最新的旗舰多模态模型,采用 MoE(混合专家)架构,在保持强大模型能力的同时显著降低了推理成本。00- RRing-2.5-1TRing-2.5-1T:全球首个基于混合线性注意力架构的开源万亿参数思考模型。Python00

