Minimind项目中的训练损失计算与Tokenizer设计解析

2025-05-11 14:56:07作者：昌雅子Ethen

预训练与SFT阶段的损失计算差异

在Minimind项目的实现中，预训练(pretrain)和监督微调(SFT)阶段的损失计算存在一些值得注意的差异。预训练阶段的损失计算会对梯度累积步数(accumulation_steps)进行缩放，而SFT阶段则没有这一处理。

这种设计背后的技术考量是：在预训练初期，模型处于冷启动状态，参数需要更稳定的更新。通过对损失进行累积步数缩放，可以模拟更大的批量训练效果，有助于提高训练稳定性。而在SFT阶段，模型参数已经经过预训练有了较好的初始化，通常不需要这种额外的稳定措施。

最新版本的代码已经统一了这两个阶段的处理方式，将SFT阶段的accumulation_steps默认设置为1，使得实现更加一致。这种调整反映了深度学习实践中常见的模式——预训练阶段往往需要更多训练技巧来保证稳定性，而微调阶段则可以相对简化。

Tokenizer预处理空间的设计考量

Minimind项目中tokenizer的训练实现展示了预处理阶段的一个有趣细节。代码中出现了两处看似矛盾的空间前缀(add_prefix_space)设置：

在初始化pre_tokenizer时设置为False
在tokenizer配置中又设置为True

这实际上是早期版本的一个笔误，但从技术实现角度，只要训练和推理阶段对文本的处理方式保持一致，这种设置差异不会影响最终模型的效果。关键在于保持训练与推理环境配置的一致性。

现代tokenizer设计中，空间前缀的处理是一个重要细节。它决定了tokenizer是否在单词前添加空格作为前缀，这对英语等以空格分隔单词的语言特别重要。正确的空间处理能确保tokenization过程的一致性和可逆性。

UNK与PAD共享ID的设计哲学

Minimind项目采用了将UNK(未知token)和PAD(填充token)共享ID 0的设计。这种设计在小型词汇表情况下尤其常见，其技术优势包括：

节省词汇表空间：在有限词汇表大小下，共享ID可以最大化有效词汇的表示能力
训练效率：BBPE(Byte-level BPE)能够编码几乎所有Unicode字符，真正的UNK情况极少
实现简化：统一处理未知token和填充token简化了模型实现

在实际应用中，这种设计确实如提问者所理解的：在训练阶段主要作为PAD使用，在部署阶段则兼作UNK。由于BBPE的特性，真正的UNK情况非常罕见，因此这种共享设计在实践中通常不会影响模型性能。

这种设计哲学反映了深度学习工程中的实用主义思想——在保证功能的前提下，尽可能简化实现并优化资源使用。类似的共享设计在资源受限的场景(如边缘设备部署)中尤为常见。

minimind

🧠「大模型」2小时完全从0训练64M的小参数LLM！Train a 64M-parameter LLM from scratch in just 2h!

项目地址：https://gitcode.com/GitHub_Trending/min/minimind

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件，通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求，让密码技术应用更简单，同时探索后量子等先进算法创新实践，构建密码前沿技术底座！

1.1 K

611

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

C++

1.01 K

MindSpeed-MM

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。