LLMs-from-scratch项目中Dropout掩码缩放因子的技术解析

2025-05-01 04:26:27作者：蔡丛锟

在深度学习模型的训练过程中，Dropout是一种常用的正则化技术，用于防止模型过拟合。其核心思想是在训练过程中随机"丢弃"（即置零）一部分神经元的输出，从而减少神经元之间的复杂共适应关系。然而，关于Dropout实现中非丢弃值的缩放因子，存在一些容易混淆的技术细节。

在rasbt/LLMs-from-scratch项目中，关于注意力机制中Dropout掩码的实现部分，最初对缩放因子的解释存在不准确之处。根据标准的Dropout实现，当应用Dropout时，保留的神经元输出需要乘以一个缩放因子1/(1-p)，其中p是Dropout的概率。

这个缩放因子的作用非常重要：

在训练阶段，由于部分神经元被随机丢弃，保留的神经元需要适当放大其输出值，以保持网络输出的总体期望值不变
在测试阶段，所有神经元都保持激活状态，但不需要进行缩放

举例来说：

当Dropout概率为0.5(50%)时，缩放因子为1/(1-0.5)=2
当Dropout概率为0.1(10%)时，缩放因子应为1/(1-0.1)≈1.111，而不是1/0.1=10
当Dropout概率为0.2(20%)时，缩放因子为1/(1-0.2)=1.25

这种实现方式确保了训练和测试阶段网络行为的连贯性。在训练时，虽然只有部分神经元参与计算，但由于进行了适当的缩放，网络输出的统计特性与测试时所有神经元都参与计算的情况保持一致。

对于自注意力机制中的Dropout应用，这一原则同样适用。在计算注意力权重后应用Dropout时，保留的注意力权重也需要按照相同的原则进行缩放，以保持注意力机制的整体输出特性。

理解这一技术细节对于正确实现Dropout至关重要，特别是在构建大型语言模型时，Dropout的恰当应用可以显著影响模型的训练效果和泛化能力。项目维护者已经确认将在未来的版本中修正这一说明，以提供更准确的技术指导。

LLMs-from-scratch

Implement a ChatGPT-like LLM in PyTorch from scratch, step by step

项目地址：https://gitcode.com/GitHub_Trending/ll/LLMs-from-scratch

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

433

395

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

C++

1.01 K

atomcode

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.68 K

989