LLMs-from-scratch项目中Embedding层与Linear层的权重初始化分析

2025-05-01 10:02:50作者：邵娇湘

在深度学习模型构建过程中，Embedding层和Linear层是两种常用的神经网络层类型。rasbt的LLMs-from-scratch项目通过实践展示了这两种层的权重初始化特性。

Embedding层与Linear层的权重对比

Embedding层通常用于将离散的索引值映射到连续的向量空间，而Linear层则实现输入数据的线性变换。在PyTorch框架中，这两种层虽然功能不同，但都包含可训练的参数矩阵。

权重初始化的随机性

在LLMs-from-scratch项目的示例代码中，作者设置了随机种子为123，然后创建了一个Linear层：

torch.manual_seed(123)
linear = torch.nn.Linear(num_idx, out_dim, bias=False)

执行这段代码后，PyTorch会自动初始化Linear层的权重矩阵。这个权重矩阵的大小为5×4（假设num_idx=5，out_dim=4），其值来自于特定的随机分布。

权重矩阵的特性

观察初始化后的权重矩阵，我们可以发现几个特点：

数值范围在-0.5到0.5之间，这是PyTorch默认的初始化范围
每个元素都是随机生成的，但由于设置了随机种子，结果可复现
矩阵的requires_grad属性为True，表示这些参数将在训练过程中被优化

与Embedding层的比较

虽然代码中没有展示Embedding层的初始化，但值得注意的是：

Embedding层的权重矩阵形状与Linear层类似
两者都使用随机初始化，但具体分布可能不同
Embedding层专为离散输入设计，而Linear层适用于连续输入

实际应用中的考虑

在实际构建语言模型时，理解这些层的初始化特性很重要：

初始化范围会影响模型训练的稳定性
随机种子的设置可确保实验的可重复性
对于大型语言模型，可能需要特定的初始化策略

通过分析这个简单的示例，我们可以更好地理解神经网络底层参数的初始化机制，为构建更复杂的语言模型打下基础。

LLMs-from-scratch

从零开始逐步指导开发者构建自己的大型语言模型（LLM），旨在提供详细的步骤和原理说明，帮助用户深入理解并实践LLM的开发过程。

项目地址：https://gitcode.com/GitHub_Trending/ll/LLMs-from-scratch

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

338

185

agent-studio

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

openGauss kernel ~ openGauss is an open source relational database management system

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

Python

114

140